一手交钱,一手交脸,你的脸被谁卖给了谁?

文/《财经》记者 刘以秦   编辑/谢丽容

2020年07月08日 19:16  

本文7330字,约10分钟

我们究竟无意间释放了多少个人信息给什么人?他们为什么要掌控我们的个人信息?要用来干什么?

提要点:

· 村民们在乎那即将到手的几十块钱,没有人会询问这些脸部数据被采集后会用在什么地方,简单的摇头晃脑就能赚到几十元钱,似乎没理由拒绝。

· 这些“脸”的第一站,是数据标注公司的二次加工,变成结构性数据。然后卖给AI公司。

· 算法是需要数据“喂”的,有了数据,算法才可以跑起来,数据越多,算法越准确。

· 没有卖家会真删除被第一次交易后的人脸数据,他们还有很多渠道可以二次出售这批收据。

· 目前人脸数据主要有几大来源:一是爬虫软件爬取网络上的人脸数据;二是获取公共场所摄像头采集到的人脸数据;三是在各类人脸识别应用的场景下,每进行一次识别,就采集了一次新的数据,这些数据存在后台或云端,可以拿出来再次售卖。

· 四天之内,三家主流科技巨头接连叫停人脸识别。背后的原因只有一个,在人脸识别越来越具备宽广的使用渠道的今天,尚无立法和规则来限制这项技术侵犯人权及被滥用。

5月12日,河南鹤岗人黄方健收到一条兼职信息,称要找人做“台灯测试”,一个人给30元钱。兼职信息上写的是,在台灯前做扭头、转身动作。

黄方健并不清楚这是什么意思,“听起来很简单”,他告诉《财经》记者,发布兼职信息的是他认识了七八年的一个中介,“我很相信他。”

到了现场之后才发现,台灯只是装置,台灯上安装的摄像头才是重点,扭头、转身的目的是让摄像头采集人脸信息和动作数据。

4个小时后,黄方健和一起来的朋友把自己的“脸”完整地交给了这枚摄像头。他们提供了自己的姓名和手机号,没有签任何数据使用合约,不清楚这些数据会被送到哪里,“隐私问题?肯定不会有问题的,我认识这个中介很久了。”

中国的人脸识别技术已经走在世界前列,其中一个重要原因是可使用的数据量足够大。这背后是大量像黄方健一样的人,主动或被动提供了自己的“脸”。

国际调研机构 Gen Market Insights发布报告称,中国已经是全球人脸识别设备市场最大的消费区域,2023年占比将达到44.59%。

中国的人脸识别技术已经遍地开花,摄像头无处不在,便利店可以刷脸支付;校园的门禁改用人脸识别;各类App的实名认证需要人脸识别;商场用摄像头来监测人流;工厂用摄像头来监管员工;一些科技公司甚至将摄像头装到了教室里,学生的每一次举手、思考、打盹都被记录下来。

有人在卖“脸”,提前“享受”到AI技术的人,已经开始为“脸”维权。2019年4月,浙江理工大学副教授郭兵将杭州野生动物世界告上了法庭,原因是动物园将入园方式从按指纹改成“刷脸”,郭兵不愿意使用人脸识别,他说,起诉的目的不在经济补偿,是对目前人脸识别技术滥用的一种斗争。

被卖到哪,用来干什么?

河南鹤壁一个简陋的办公室里,前来卖“脸”的人排起了长队,他们大部分是中老年,以女性居多,一些头发已经花白的奶奶们手里还抱着孙子孙女,就像赶集一样。

有人脸数据采集的现场工作人员告诉《财经》记者,一个村子只要有一个人来卖“脸”,他很有可能第二天把全村人都号召过来。

这次人脸采集没有用台灯,桌上直接摆了一台电脑,坐在电脑前,在工作人员的指导下,抬头、低头、向左看、向右看……排队的人们觉得很新奇,也跟着一起抬头低头。

村民们在乎那即将到手的几十块钱,几乎没有人会主动询问这些脸部数据被采集后会用在什么地方。他们听不太懂什么叫人工智能、大数据、人脸识别,也没想过隐私问题,简单的摇头晃脑就能赚到几十元钱,似乎没理由拒绝。

脸是一个人最直观的特征,人脸上有大量的细节,来帮助我们辨认彼此,大眼睛、高鼻梁、左脸有颗痣,面部表情会传递情感,是开心、困倦还是生气......也正是这些细节,让机器认识了人。

这些“脸”的第一站,是数据标注公司的二次加工,变成结构性数据。然后卖给AI公司。

李飞(匿名)从来没有这么仔细的盯着一个人的脸看。他是一家数据标注公司的标注员,他的工作是在各种人脸照片和视频上,用打点的方式来做标注,仅仅是眼睛,就要打超过10个点。

此外,他还需要标记出面部表情,例如笑、皱眉、打哈欠等。

中国AI产业发展的最大优势,是庞大且丰富的数据,如果将AI比作人,数据就是AI学习的教材,有了足够多的结构性数据,AI就能越来越高效。

尽管对AI技术并不了解,李飞也知道这项工作的目的,“通过我们标注好的数据,机器就可以识别出你是谁,你在做什么。”他告诉《财经》记者。

标注完成后,数据会被打包好,上传到大数据平台公司,然后卖到AI公司手里。对于AI公司来说,这些从不同渠道买到的脸部数据,是他们的算法“口粮”。在AI领域有一个常识,算法是需要数据“喂”的,有了数据,算法才可以跑起来,数据越多,算法越准确,当识别的精准度足够高,就可以做成产品,卖给各类有具体需求的客户。

走出河南乡村,人脸识别的应用场景非常丰富,深圳的公安在过去几年,已经将人脸识别广泛应用于嫌疑人定位和抓捕;智能手机不再局限于指纹识别,通过摄像头的人脸识别解锁,手机屏幕可以变得更大;一些校园、写字楼、景区门口,人脸识别代替了刷卡、检票,减少人工;线下商场里,人脸识别技术会分析顾客的行为和情绪,来帮助商家做出更有针对性的营销策略。

由于对数据的需求不是持续性的,且采集并不复杂,对操作人员的技术也没有特殊要求,只需提供专业的采集设备即可,很少有AI公司会自己成立数据采集团队,大多交给外包公司。

阎良斌是知否大数据公司创始人,2014年他还在上大学,一次偶然的机会,他发现北京的一家AI公司有数据的标注和采集需求,他开始做兼职,一天可以赚到1000元钱。

“这可能是一个商机”,2017年,他在河南郑州成立公司,系统性从事数据采集和标注的工作。

阎良斌告诉《财经》记者,如果只是采集人脸照片,一个人平均下来只需要5分钟时间,视频需要约1-2小时。通常的流程是,客户告知具体的数据需求,他们会以此来预判所需要的人力和时间成本,进行报价,价格商议一致后,会先提供一些样本数据,客户对数据质量满意后,就会进行正式的采集工作。

目前阎良斌接到的订单,一次采集量在1000个人左右,这个规模的采集量,一周左右就能完成。

“脸”的流通到这里还没有结束。其实,所有的摄像头在比对人脸时,又再一次的记录了人脸,AI技术之所以有巨大价值,就是可以在不断的应用中,自我优化。

每个人每天的面部情况,不是一成不变的,是否化妆,是否戴眼镜,是否更换发型,光线不同......同一个人不同时间走到摄像头前面的角度也是不一样的,摄像头每拍下一张新的照片,就是将人脸数据更新了一次。

当摄像头记录了你100天的照片后,它大概就成为了这个世界上最熟悉你的“人”。

在一次次的人脸识别应用的过程中,这些“脸”变得越来越有价值,也变得越来越不受控制。

二次转卖背后的灰色江湖

如果买卖人脸数据只是喂给算法,那么,只要脸部数据的拥有者同意并知情,这还算是一门阳光下的生意。但随着AI产业的迅速爆发,这一条产业链正在“变形”。

阎良斌一年前就听说,网上有公开售卖人脸数据包,几万张人脸数据,只需要几百元钱。

他说,按照正常的商业规则,这一批脸部数据卖给一个客户后,卖家就应该删除数据清除缓存,不得留存在自己的电脑里。但这是道德约束,没有很强的技术约束能力。没有卖家会真删除,他们还有很多渠道可以二次出售这批收据。“网上低价出售的数据,应该就是来源于这些已经被卖过一次的二手数据。”

第一次卖出的价格高,第二次重复卖,卖点是价格低。另一个人脸采集行业的资深从业者告诉《财经》记者,也不是所有人脸数据都可以二次出售。被二次低价售卖的数据通常是一些清晰的正面人脸照片。

不太好被二次出卖的是那些从一开始就有特殊定制化的脸。比如,有的客户会要求只要戴着眼镜的照片,或者戴着口罩的照片,或是光线昏暗下的照片。

这些被二次出卖的人脸数据卖给谁?许多初创AI公司,并没有足够的预算去定制化数据采集,这引发了对低成本人脸数据的需求,阎良斌透露,如果是初创公司刚开始跑算法,可以用这些数据,但是如果要将算法打磨的更精准,就不够用了。

不过,这些便宜的人脸数据,并不完全来自上述渠道,来自四面八方。

多位AI行业人士向《财经》记者透露,除了数据公司定向采集,目前人脸数据主要有几大来源:一是爬虫软件爬取网络上的人脸数据;二是获取公共场所摄像头采集到的人脸数据;三是在各类人脸识别应用的场景下,每进行一次识别,就采集了一次新的数据,这些数据存在后台或云端,可以拿出来再次售卖。

这三大来源,都是隐藏在蓬勃发展的AI产业下的数据买卖冰山。

去年年底,在一个科技行业论坛上,《财经》记者只花了3块钱就买到了一个包含8万张高清人脸照片数据的人脸数据包。如果你是该论坛VIP用户,还可以免费下载。出售者私底下告诉《财经》记者,这是通过爬虫软件爬取的数据。

爬虫工具是涉及到大数据的公司的通用工具,爬虫工具的出现,可以提高数据搜集的效率,如果是爬取公开数据,例如百度索引,是合理合法的,但如果涉及到个人隐私数据,那就越过了红线。

2019年,多家大数据金融公司被查处,原因是涉嫌利用爬虫技术,爬取欠款人的个人隐私信息。

多位行业人士认为,在目前的法律框架内,如果爬取的是社交网络上的公开人脸数据,且只有照片,并不匹配个人的身份信息,只标注出性别,以及面部五官,用于跑算法的话,目前看来是不违法的。

公共摄像头采集的数据,是指在小区、校园内、商场内、路口处或是车站内安装的公共摄像头,会采集到大批量的人脸数据,这些数据相对不那么高清,但好处是可以用来验证算法。

通过这些照片,AI公司可以分析出该场景下的人群分布情况,包括性别比例,大致的年龄分布,人流密集程度,以及行动轨迹。

从结果来看,这些数据的作用是巨大的,比如政府部门可以用来检测公共场所的人流密集程度,来判断是否应当增加安保;商场可以更有针对性的进行广告宣传等。

但从数据获取的来源来看,它又显得不那么“阳光”。一家大数据公司的创始人告诉《财经》记者,他就曾经帮客户采集过这样的公共摄像头数据。由于目前对数据的监管并不严格,获取这些数据并不复杂,他透露,只需要花费小小的代价,“打通”一些简单的关节,就可以拿到数据。

例如,小区和校园内的监控数据,只要“收买”安保处的工作人员即可,再或者,架设摄像头的相关公司,都会留存这些数据,“你如果提出要买,对方没有什么理由不卖给你。”

也就是说,一手交钱,一手交脸的卖脸方式,卖的是高精度、多角度、符合特定要求的脸,但即便你没有这样的操作,只是在日常的生活中出现在脸部识别的摄像头中,你的脸,也有可能多次产生你永远不可能知道,也不会拿到报酬的商业价值。

不过,这些数据含金量并不高,高端买家更加青睐能够定位到个人信息的人脸数据。一家AI公司CEO告诉《财经》记者,最有价值的数据,就是能够匹配个人身份,且在不同时间、场景下的数据。

这就引出了人脸数据交易环节中,最隐秘的一环,如何拿到匹配个人身份信息的人脸数据,且是连贯性、结构性的数据。

人脸识别的一个常见的应用场景是门禁,将固定人群的数据输入后台,当经过门口的摄像头时,会被拍摄一张照片,算法会识别是否与数据库匹配,如果匹配,就会放行。

在一些人看来,这是一个非常简单的应用,只是做一个数据匹配而已。但如果这些数据被分类抽出,售卖,就是最有价值的人脸数据。

应该继续下去吗?

今年,阎良斌发现,仅仅是采集人脸照片数据,已经不能满足客户需求了。

他接到的订单要求开始升级,主要包括两类,一类是人脸视频数据采集,相对于静态人脸,视频数据采集,要求的是动态的、自然的人脸;还有一类是海外人脸数据采集,对于阎良斌来说,要找那么多外国人来采集人脸数据,难度加大不少。

采集一个人脸的视频数据,至少需要40分钟,“一次可能会来10个人,但只有2套设备,剩下的人要排队等很久,他们就不愿意等了。”这种情况下,一天最多采集20个人。

不止是视频动态数据,今天,相对成熟的AI公司们基本都能做到识别准确率90%以上,他们还需要做到99%以上,阎良斌接到过专门要求采集双胞胎数据的订单,以及不同肤色人种的数据。

报酬确实会提高,但增幅有限,AI公司并不愿意在数据采集环节支付过高的费用,“给到一个人的费用可能是从30增加到50,“很多订单是不可能完成的。” 阎良斌说。”

需求升级的背后,是人脸识别技术的进阶,对应的数据需求也越来越高。今天,大量的场景需要动态识别,而不止是让用户走到摄像头前,站定,拍照,确认身份。

动态识别的价值似乎更高,应用场景之一是线下零售,安装在各个角落里的摄像头,会记录下顾客的行为轨迹,以及拿起每一件商品时的面部表情。

这需要人脸识别技术的“无感”,一位智能零售行业技术人士告诉《财经》记者,“如果顾客知道有摄像头在拍,面部表情和行为会受到干扰。”他将这样的数据称为“脏数据”,“失去了很多分析价值。”

让摄像头“无感”,同时采集顾客的脸部和行为数据,怎么样算合法合理,行业里是有争议的。一家AI创业公司创始人向《财经》记者表达了他的看法。他认为,任何时候,任何地点,如果要采集人脸数据,就必须要告知,比如一些公共场所有摄像头,会有标识称您已进入视频监控区域。

前述智能零售行业人士则表示,如果“采集到的数据不涉及个人身份信息,且只用于当下的场景,也就是不会上传到云端,直接做出数据分析的结果”,就不会有问题。

但问题是,谁来规范这个“如果”?

同样的问题在AI人脸识别的一个重要领域,校园里,也有同样的问题。

2019年9月,网络上出现一幅课堂行为分析视频的截图画面,教室里的人工智能系统正在监测学生们睡觉、举手、趴桌子和阅读次数,不少网友称学生没有隐私和尊严。该系统开发商是某AI独角兽公司,该公司随后发布声明称,此为技术场景化概念演示,该公司在教育领域的产品专注于保护孩子在校园的安全。学校已经是人脸识别技术的重要采购者。数据买来以后,可以用于校园内的安全防护,以及进校门的身份验证,但这似乎还不够,摄像头已经开始批量进入教室内。

一家为学校做智能课堂改造方案的公司人士告诉《财经》记者,这样的需求很多,但并不是为了监控学生,“我们目前接到的需求都是为了考核教师,如果学生表现的比较积极,说明这堂课的上课质量更高。”

智慧课堂早在2018年就已经开始落地,在2018年中国教育装备展示会上,多家科技公司都展出了相关解决方案,包括旷视、百度、腾讯等,用以辅助教学评估。

AI创业公司一览群智CEO胡建告诉《财经》记者,有能力且有意愿采购AI技术的客户目前并不多,学校有政府资金支持,并积极响应国家推动AI发展的号召,是除政府与金融机构之外的大客户。

胡建提到,此前陆陆续续有不少学校找到他,希望可以提供相关的技术解决方案,但他的内心是拒绝的。

他始终认为,如果摄像头都已经安装到课堂里,不管是监控学生还是老师,如果采集到的数据后续的流转得不到制度和法律上的规范保障,目前就大规模应用,似乎有点过火。

《财经》记者的综合采访结果显示,一些人认为这涉嫌技术滥用,这不是公司、学校,或技术本身的问题,但确实是个问题。新技术发展初期,会面临类似难题,如果放而任之,很有可能出现孩子们的人脸数据进入灰色交易市场的失控局面;如果管得太死,又遏制了技术创新的机会。

今年6月开始,美国主流科技巨头掀起了一轮集体抵制人脸识别运动。

6月8日,蓝色巨人IBM 宣布:IBM 将不再提供任何人脸识别和人脸分析软件,这是美国科技巨头第一次旗帜鲜明地放弃人脸识别业务。

两天后的6月10日,亚马逊宣布将会暂停向美国警方提供人脸识别服务,时间长达一年。

紧接着的6月12日,微软表示,在有监管面部识别技术的联邦法律出台之前,该公司不会向警察部门出售这种技术。

四天之内,三家主流科技巨头接连叫停人脸识别。背后的原因只有一个,在人脸识别越来越具备宽广的使用渠道的今天,尚无立法和规则来限制这项技术侵犯人权及被滥用。

美国之外,中国是人脸识别技术和应用最火热的国家之一。前瞻产业研究院研究表示,未来五年中国人脸识别整体市场成长迅速,市场渗透快速攀升,预计到2021年中国人脸识别市场规模将达到53.16亿元,2024年将突破100亿元。

国家相关机构越来越重视个人隐私保护,《个人信息保护包》和《数据安全法》已经纳入全国人大常委会2020年立法工作计划。多位行业人士告诉《财经》记者,目前中国的相关法规依然在平衡商业创新和个人信息保护,目前还并未出现足以震慑行业的典型判罚案例。

6月15日,“中国人脸识别第一案”在浙江杭州富阳区法院开庭审理。此案还没有最后的结果。

产业高速发展背后,是越来越明显的社会矛盾,清华大学法学教授劳东燕撰文指出:所有的个人数据,包括识别性极强的生物学数据,都是由群体中的少数人来掌控。这些人究竟掌控我们多少的个人信息,为什么要掌控我们的个人信息,掌控这些个人信息是要用来干什么,都是细思极恐的事。

打开财经APP, 查看更多精彩内容
更多相关评论 
打开财经APP, 查看更多精彩内容
相关新闻
热门推荐
打开财经APP, 查看更多精彩内容