随着大数据时代的到来,数据的价值越来越重要,往往成为机构或者企业最宝贵的财富甚至涉及商业机密。2019年10月底召开的十九届四中全会首次将数据列入参与分配的生产要素。
同时,消费者对于个人隐私越来越重视,甚至到了“谈隐私色变”的地步,数据安全成为数字经济发展的重要一环。
如何保证数据既能得到合理的共享和使用,并且在人员完全不可见的情况之下实现数据和计算的价值,又能保障消费者个人信息安全,即实现数据“可用不可见”成为产业界新的技术发展趋势。
数据产业面临安全难题
数据分析公司Statista在2019年8月发布的报告显示,预计到2020年,全球大数据市场的收入规模将达到560亿美元,较2016年的市场收入规模翻一倍。从细分市场来看,硬件、软件、服务的市场规模将分别达到150亿美元、200亿美元、210亿美元。
这也就意味着,随着机器学习、高级分析算法等技术的成熟与融合,更多的数据应用和场景正在落地。
与此同时,随着欧盟2018年为保护公民个人数据实施《通用数据保护条例》,数据合规也更加受到重视。
而中国在数据方面的立法则是以个人信息保护为核心,数据安全法律法规尚不完善。2019年12月,全国人大常委会法工委发言人岳仲明表示,中国明年将制定个人信息保护法、数据安全法等法律。
在现有规则中,交易数据应“通过合法渠道获取,权利清晰无争议,并具备准确性、真实性”,涉及国家秘密、个人信息、他人知识产权、商业秘密被禁止交易。
2014年以来,国内出现了一批数据交易平台,各地方政府也成立了数据交易机构,比如中关村数海大数据交易平台、贵阳大数据交易所、长江大数据交易中心等等。
但目前国内的数据交易市场发展仍面临诸多安全方面难题。
2019年12月,中国信通院发布的《大数据白皮书(2019)》指出,数据交易中介等可能会私下缓存并转卖交易数据,个人隐私、商业机密等系列安全问题日益突出,亟需建立包括监管机构和社会组织等多方参与,法律法规和技术标准多要素协同,覆盖数据生产流通全过程和数据全生命周期的数据交易生态体系。
“可用不可见”或成新解决方案
数据安全防护主要包括管理措施和技术措施两个方面。
在技术措施上,走在产业前沿的阿里将数据生命周期总结为6个环节:数据采集、数据存储、数据传输、数据处理、数据交换、数据销毁,并且被国家标准《信息安全技术数据安全能力成熟度模型》采纳。
“可用不可见”既是数据安全和应用的目标,也是手段,即设计特殊的加密算法与协议,支持在加密数据之上直接进行计算,得到所需的计算结果,同时不接触数据明文内容。
阿里巴巴集团数据安全总监徐骏在1月7日举办的第四届网络新“枫桥经验”高峰研讨会上介绍,“可用不可见”技术主要包括基于密码学技术的密态计算和基于可信执行环境技术的可信计算等。
具体来说,“可用不可见”技术通过安全多方计算(MPC,多个参与各自持有秘密输入,各方共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息的技术)、差分隐私(用算法加扰个人用户数据,使之无法回溯到个人,然后对数据进行批量分析,得出大规模的趋势规律)、联邦学习(多个机构在满足用户隐私保护的要求下,进行数据使用和机器学习建模的技术)等在国际上已经被充分认可的方式处理数据以脱敏。
上述技术也是目前敏感数据处理使用中最为主流的防护手段,但不同的实现方式对隐私数据的保护程度不同,相应的在应用场景上需要选择合适的技术。
2019年12月,阿里安全双子座实验室和蚂蚁金服摩斯团队在iDASH 安全计算赛事中,获得了“安全多方计算”赛道的并列第一名,这是中国大陆代表队在这项国际隐私保护和安全计算最高规格的竞赛上首次夺冠。
当时比赛的题目是基于MPC技术,在多个医院互相不接触对方任何隐私数据的前提下,完成机器学习模型的合作训练--根据多个医院的总共数万维基因数据,预测癌症患者的复发率。
目前,国内外大型金融、互联网、计算机等企业都在布局“可用不可见”技术,尤其是应用在金融、医疗、AI和大数据领域。
2015夏季达沃斯年会上,浪潮集团董事长兼CEO孙丕恕就曾表示,浪潮正着力打造数据交易平台,基于隐私保护,如何做到数据“可用不可见”是目前仍待解决的技术问题之一。
2019年9月,阿里巴巴集团安全部高级安全专家包义保曾在发表的文章中指出,Intel、IBM、Fortanix、Equinix、Enigma、微软、谷歌、百度均在做着技术上的努力。
中国信通院在前述报告中认为,参照法律法规制定相关产品技术标准、应用符合相应技术标准的数据安全技术产品、保证敏感数据和个人隐私数据的使用合法合规,将成为大数据产业合规落地的一大趋势。