“可用不可见”能成为数据安全治理新方案吗?

文 | 李星郡 编辑 | 朱弢  

2020年03月17日 15:17  

本文3504字,约5分钟

在此次新冠肺炎疫情期间,数字技术发挥了前所未有的作用,但是也暴露出了诸多问题,比如排查和上报过程中一些机构组织散播未经“脱敏”的个人信息。如何保证数据既能得到合理的共享和使用,又能保障个人信息安全,正成为亟待解决的技术问题之一。

随着大数据时代的到来,数据的价值越来越重要,往往成为机构或者企业最宝贵的财富甚至涉及商业机密。2019年10月底召开的第十九届四中全会首次将数据列入参与分配的生产要素。

在此次新冠肺炎疫情期间,数字技术第一次全链条、全方位、全周期地介入疫情联防联控、复工复产和社会治理中,发挥了前所未有的作用,但是也暴露出了一些问题,比如排查和上报过程中出现一些散播未经“脱敏”的个人信息案例。

数据泄漏事件时有发生,让消费者对于个人隐私越来越重视,甚至到了“谈隐私色变”的地步,数据安全成为数字经济发展的重要一环。

如何保证数据既能得到合理的共享和使用,并且在内部人员完全不可见的情况之下实现数据价值的计算和流动,又能保障消费者的个人信息安全,即实现数据“可用不可见”成为整个数字行业亟待解决的技术问题之一。

为了深入了解“可用不可见”技术的发展背景、进展阶段、应用情况、难点以及前景,《财经》E法专访了阿里巴巴集团长期研究数据安全技术的双子座安全实验室负责人杭特。

两条技术路线

数据安全防护主要包括管理措施和技术措施两个方面。

在技术措施上,阿里将数据生命周期总结为6个环节:数据采集、数据存储、数据传输、数据处理、数据交换、数据销毁,并且被国家标准《信息安全技术数据安全能力成熟度模型》采纳。

“可用不可见”既是数据安全和应用的目标,也是手段,“可用不可见”技术主要包括基于密码学技术的密态计算和基于可信执行环境技术的隔离计算等。

其中,基于密码学技术的密态计算,以安全多方计算(MPC,多个参与各自持有秘密输入,各方共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息的技术)、同态加密(同态加密是一种加密算法,对明文进行数字运算再加密,与加密后对密文进行相应的运算,结果是等价的)等技术为代表,设计特殊的加密算法和协议,从而支持在加密数据之上(不用解密)直接进行计算,得到所需的计算结果,同时全过程不接触数据明文内容。

基于可信执行环境技术的隔离计算则以Intel的SGX,AMD的SEV,ARM的Trust Zone等技术作为代表,以可信硬件为载体,提供硬件级强安全隔离和通用计算环境,在完善的密码服务加持下形成“密室”,即黑盒子,数据仅在“密室”内才进行解密并计算,除此之外任何其他方法都无法接触到数据明文内容,数据在离开“密室”之前又会被自动加密,从而实现“可用不可见”。

杭特表示,密态计算和隔离计算分别是基于软件方式和硬件方式,有不同的使用场景。

举例来说,对于规模相对小的简单场景,合作方互相交换数据适用于密态计算,比如甲方有100万个用户,乙方有50万个用户,求双方的共同用户,甲乙双方可以把各自用户的信息加密传到算法里,并获得计算的结果,双发先进行加密数据的计算,之后将结果解密后即可得到共同用户,整个过程双方无法接触到非共同用户的信息。

而对于规模更大的复杂系统场景,想要实现数据的“可用不可见”,只需要盯住数据产生的阶段,在这个阶段加密后保管好密钥,之后进入“黑盒子”处理时是明文数据,离开“黑盒子”的时候又是加密状态,只要保管好密钥即可,即便黑客入侵系统了也无法解密获得明文数据。。

虽然“黑盒子”里面是原始数据,但这一特殊硬件能保证无法被入侵,黑盒子内做的计算是用程序写的,而程序本身是签过名的,不能做任何修改,运行前要看签名对不对,若错误则无法运行。

杭特提醒,虽然技术解决方案可以有很多种,但是每种都各有优缺点。

硬件方案的优点主要是两个,一是速度快,因为本质上是在解密的状态下计算的,只是有加密和解密的过程;二是支持所有种类的运算,因为最终是在明文上计算。相应的,缺点一是得有硬件,另外是对硬件有信任的问题。

软件方案的优点一是对硬件没有任何要求,在任何设备都可以实现,二是算法是国际标准,在此基础上还会做更多复杂的密码学组合,只要信任算法安全性就没有问题,而算法的破解属于世界性难题,密码学正是由此建立。缺点则一是速度相对慢,二是支持的算法种类相对较少。

国外技术走得更远

杭特介绍,目前国内只有少数大的互联网公司在投入研发和使用“可用不可见”技术,所以这些有投入的大厂也得益于此,在数据安全保护的技术以及整体实力上要远超同行。对比国外,国内在技术研发与应用的局部有过人之处,但整体实践应用水平,则仍有待提升。

从硬件上,英特尔的SGX(软件保护扩展)改变了过去程序信任的是系统,所以从启动开始需要不停地进行信任验证;现在哪怕整个系统有问题,程序只是信任CPU也不会出问题。目前国有自主可控硬件系统暂未有相关的技术能力。

从软件上,主要用的技术是同态加密和安全多方计算,其中同态加密理论基础是美国Rivest等人在20世纪70年代首先提出的,安全多方计算起源于1982年姚期智在美国时提出的百万富翁问题,即两个富翁在街头相遇,如何在不暴露各自财富的前提下比较出谁更富有?

杭特分析,这些技术早期发明只有学术上的意义,因为早期数据共享交换需求不大;但数字经济时代的到来,在商业需求的驱动下,同态、安全多方计算等数据安全技术近些年得到了突飞猛进的发展。

“当前,市场的引导仍表现得滞后,主要依赖于企业提供的最佳实践。”杭特表示,目前数据可用范围和标准都还未完全厘清,阿里巴巴正在与行业其他单位机构等一起推进标准和规范。杭特介绍,阿里巴巴从2016年开始布局“可用不可见”技术。

2019年12月,阿里安全双子座实验室和蚂蚁金服摩斯团队在iDASH 安全计算赛事中,获得了“安全多方计算”赛道的并列第一名,成为中国大陆代表队在这项国际隐私保护和安全计算最高规格的竞赛上首次夺冠。

比赛的题目是基于MPC技术,在多个医院互相不接触对方任何隐私数据的前提下,完成机器学习模型的合作训练——根据多个医院的总共数万维基因数据,预测癌症患者的复发率。

此外,杭特表示,阿里巴巴是多方安全计算和同态加解密国内唯一一家在开源项目上有贡献的企业。

事实上,从公开报道来看,“可用不可见”的提法至少在2015年已经出现,比如2015夏季达沃斯年会上,浪潮集团董事长兼CEO孙丕恕就曾表示,浪潮正着力打造数据交易平台,基于隐私保护,如何做到数据“可用不可见”是目前仍待解决的技术问题之一。

不过,根据孙丕恕2018年11月在第五届世界互联网大会上提到的做到数据的“可用不可见”方法论述——银行把风控模型放到数据政府平台上进行计算,之后把结果拿回去,但不能调走原数据,实际上是通过数据权限管理,属于管理手段而非技术手段。

面临多重挑战

杭特指出,国外技术虽然更好,但应用其实比国内更少,因为国外管理更严。他认为,在数字经济大环境下,往往管得太紧可能会限制发展,管得太松则会产生混乱,这中间存在平衡问题。

杭特透露,当前阿里巴巴的“可用不可见”技术,主要应用于金融和商业领域,尤其是跨境业务合规方面。阿里内部也使用了“可用不可见”技术,用于增强数据安全保护工作。

杭特坦言,“可用不可见技术”发展存在多个难点。首先是人才和技术问题,国内高校对这一领域关注度不够,技术人员主要来自国外高校;在加密的条件下进行计算,技术难度很大;而且“可用不可见”的理念毕竟超前,有待需要形成共识。

杭特还提到,新技术产业的环境的发展对于“可用不可见”技术也提出新的挑战。如果能实现数据“可用不可见”,系统完全是不是可以不管了?但是现在又不一样了,因为5G来了,随之而来的物联网时代的来临。 

5G的高带宽、泛连接、低延迟,完全是为物联网而生,中国的数字化改造、工业化、农业化生产以后在5G上大有可为,但是物联网爆发对系统安全的要求很高,一旦被人控制了,就会存在较大的安全风险。因此在推进“可用不可见”数据保护技术同时,对系统安全也不能掉以轻心。