11月初,国内“人脸识别第一案”引发了舆论关于人脸识别技术与安全的讨论。而不久前,“ZAO”APP的兴起也让AI换脸走入了普通民众的视野,有必要注意一下的是,AI换脸技术目前已被应用于影视、娱乐等各方面,甚至是淫秽视频。这引发了社会对人脸数据是否可能被滥用的争议。
谁在搜集你的脸?谁在买卖你的脸?
新京报记者近日调查发现,网上有一些私下售卖人脸数据的卖家,有发帖者称8元可买3万张人脸照片。有卖家表示可以提供“更多渠道”的人脸图片,按照3000元可买24000套人脸照片来计算,相当于一套只要一毛多。还有卖家表示,其出售的照片大部分来自朋友圈,且没有取得对方同意。
北京大学法学院教授薛军告诉新京报记者,有必要对人脸识别设置门槛,“人脸信息伴随着人的终身,一旦发生泄露风险就特别大,所以要进行最严格的保护,首先必须得到用户明示同意才能收集,我个人认为有时得到个人同意也不行,需要国家授权才能收集敏感的生物识别信息。”
人脸照片在网上可公开下载
部分来自于网站爬取
人脸照片正在被作为商品售卖。
新京报记者在IT社区、网络商城等多个平台搜索发现,有不少人脸照片可供免费下载或付费购买。付费金额由帖子发布者自定,多在10元到20元左右,如有发帖者表示可以“8元购买60名志愿者的每人500张照片,共计3万张照片”。
记者浏览多个人脸下载帖发现,人脸图片的上传者一般会对图片中涉及的人脸属性进行标明,如“小孩”、“明星”、“网红”等。照片场景则多种多样,有个人自拍,也有与朋友的合影,而被截取下来的只有人脸部分的图片。
据了解,在IT社区中可公开下载的照片标记为外国研究机构提供的国外志愿者照片,如有帖子表示“耶鲁大学AR人脸数据库、卡耐基梅隆大学PIE数据库等打包卖15元”,这些图片是为了训练人脸识别专门搭建的数据集,图片质量较好。
不过,也有部分照片来源于网站爬取。记者下载了13万张标记为“网红”的人脸图片后,随机选取五张照片在百度识图搜索后发现,其中一张照片为一名香港艺人。而记者搜索与该艺人名字相关的图片后发现,所下载的人脸图片的来源五花八门,有的截取自娱乐新闻网站的新闻图片,也有博客发布的博文配图。有必要注意一下的是,有的图片来源于于已删除的博客,但记者仍然可以在搜索引擎搜索到相关图片,只不过源网页显示“内容已删除”。
对于可直接下载的图片,有发布者表示,其提供的数据集可以任意拿来下载研究,“只要别用在商业和不正当用途就可以了”。
对此,北京市中闻律师事务所合伙人赵虎表示,这或存侵犯肖像权与著作权的问题。“他人公开上传到贴吧或者微博的他人的图像,只是这些肖像权人在行使自己的肖像权,如果没有明确授权他人使用的,任何人出于商业目的而进行使用,肯定是会侵犯他人肖像权的。除了上传肖像,还有可能上传一些自己拍摄的其他图片。若未经著作权人明确授权能够正常的使用这些图片外,还会涉嫌侵犯他人的著作权。”
中国人民大学法学院副教授丁晓东对此的看法则较为宽松,“我认为爬取公开的图片本身没问题,比如明星的图片,但这一行为也需要根据图片的来源和图片的场景来认定,如果对微博和好友相册等半公开图片进行爬取,由于存在生物识别信息,存在一定风险,爬取就需要有一定的限制。”
有卖家称人脸图片“可定制”
3000元可购买24000套
新京报记者发现,由于国外进行人脸识别项目时间较早,目前公开提供的人脸数据库的图片多来自国外,照片也以外国人为主,但对于国内的人脸识别研究项目,为让模型识别更为精准,最好使用中国或亚洲面孔的图片,此时外国数据库的图片往往无法满足需求。
对此,也有网购平台上的卖家提供照片“定制”。新京报记者在淘宝搜索人脸数据集后注意到,某店铺提供“同人N张人脸数据集,超10万人不同角度、不同场景、不同身份、无遮挡、非名人非网络图库”的人脸数据库,还支持“一站式”的数据定制服务。商品详情介绍显示,数据获取含有人工数据采集、自动化数据采集、调研问卷收集三个途径。
新京报记者查阅店铺信息发现,购买人脸数据的定价为十元,但具体购买多少需要再与店家进行沟通。记者根据店铺公开显示的手机号与卖家取得了联系。“有些人要一两万个,有些要十万个。一般都是要一万个人以上,每个人五张。”该卖家表示,“(照片)都是自己采集的。”
该名店家强调,“所有的照片都是近期的。”至于图片来自,对方表示“大部分来自于朋友圈,有的是朋友圈一传十十传百收集来的,有的则是直接购买的,收集起来十分费劲。”
随后,该店家发送给新京报记者一组储存有人脸照片文件夹的截图,截图共包含有18张照片,每个照片均被以数字编号命名。“一个人一元,五张照片,在转账之前,可通过远程操作来观看这些照片。”
有必要注意一下的是,该店家承认,“这个(使用照片)肯定没有取得人家的同意。”不过,在她看来,这些照片被拿来做研究并无不妥。“不是公布到社交平台或公开网站,肯定是没问题的。”
关于定制服务,该店客服向记者发送了“定制”所需维度,包括男女比例、年龄层次比例、国籍等。“有其他要求也可以说。”数据集的价格与以上因素相关。
据其介绍,最近询问此款商品的人并不在少数,至于标价十元只是一个基数,交易的话还需要签订合同,通过对公账户转款。“走公账及签订合同是双方的一个保障。”
此外,新京报记者在浏览国外网站时发现,有不少软件公司公开出售其储备的人脸数据库,如一家网站储存有75万张人脸图片,数据共305GB。此类包含动辄数万人脸照片的数据库在网络空间并不难查找,且有的数据库并未对其图片来自是否合法做出明确标识。
新京报记者通过在IT社区人脸数据资源帖评论区加微信的方式联系到一名自称拥有人脸数据库的卖家,对方表示如果支付3000元,可以提供24000套人脸图像,渠道“多种多样”。对于具体的人脸图像来源,对方仅表示是“中国的”,但没有透露更多。
赵虎告诉新京报记者,非法买卖人脸图像等数据可能违反《民法总则》《侵权责任法》中对于他人隐私权、肖像权的保护。而国家机关或者金融、电信、交通、教育、医疗等单位的工作人员利用其掌握的公民人脸数据,然后进行倒卖的,可能会构成《刑法》规定的出售、非法提供公民个人隐私信息罪。“如果是手机APP等非法搜集用户相关信息,则还会违反《移动互联网应用程序信息服务管理规定》的相关规定。”
人脸数据的信息泄露风险
专家:从制度上约束,防止信息泄露
在安恒信息安全研究院院长吴卓群看来,人脸数据存在唯一性,如果厂商将人脸数据收集以后没有规范化应用,一旦泄露可能会引起严重的后果。
“人脸识别本身是方便我们生活的,可以免去我们输密码的麻烦,但它最大的风险在于信息泄露,因为包括人脸在内的生物识别具有唯一性,这些唯一性的人脸信息一旦被采集上去,如果没有妥善处理,可能会被滥用。”吴卓群告诉新京报记者。
10月28日,由于反对采用人脸识别的方式进入动物园,浙江理工大学特聘副教授郭兵作为消费者将杭州野生动物世界告上了法庭,该案也成为国内消费者起诉商家的“人脸识别第一案”。2019年11月1日,杭州市富阳区人民法院正式受理此案。
郭兵认为,园区进行人脸识别将收集他的面部特征等个人生物识别信息,该类信息属于个人敏感信息,一旦泄露、非法提供或者滥用,将极易危害包括原告在内的消费者人身和财产安全。“根据《消费者权益保护法》第29条之规定,园区收集、使用原告个人隐私信息,应当遵循合法、正当、必要的原则,明示收集、使用信息的目的、方式和范围,并经原告同意;而且,被告收集、使用原告个人隐私信息,应当公开其收集、使用规则,不得违反法律、法规的规定和双方的约定收集、使用信息。被告在未经原告同意的情况下,通过升级年卡系统强制收集原告个人生物识别信息,严重违反了相关规定,损害了原告的合法权益。”
新京报就此事致电杭州野生动物世界,一名工作人员证实,目前指纹识别已取消,入园者只能到年卡中心录入人脸信息,通过人脸识别入园。该工作人员介绍,人脸识别更方便、快捷,“指纹有时候有点破皮、按(识别)不出来的。”对于外界对个人隐私的担忧,该工作人员说,“就你入园扫一下(脸)。”他补充,“指纹也是你的信息,你办年卡的时候,身份证也留了,电话也留了,这些也是你的信息呀。”
吴卓群表示,人脸识别技术在技术上已经日趋成熟,在许多图片识别上,AI的准确率还可以高过人工识别,总的来说,技术是为了方便大家,方便社会,这个技术发展本身还是比较好的,但为避免泄露的风险,有必要从制度层面来保证人脸数据信息的流转,或者设置一个标准来规定我们采集后什么能存,什么不能存,从制度和法律上来约束,以防止采集后出现信息泄露的问题。
北京大学法学院教授薛军告诉新京报记者,有必要对人脸识别设置门槛,“人脸信息伴随着人的终身,一旦发生泄露风险就特别大,所以要进行最严格的保护,首先必须得到用户明示同意才能收集,我个人认为有时得到个人同意也不行,需要国家授权才能收集敏感的生物识别信息。”
人脸数据可用来做什么?
多用于研究,大量照片用于AI学习
事实上,早在人脸识别技术刚刚兴起时,收集大量人脸照片用于机器AI学习就成为了人脸识别项目研究的“刚需”。
新京报记者正常采访多位从业者发现,购买人脸照片的大多是从事人脸识别相关研究项目的工作人员,人脸数据被他们用于训练机器AI的识别精确度。
AI人脸识别研究人员刘泽康向新京报记者介绍,对于AI人脸识别从业者来说,拥有几万张人脸照片并不罕见,他每天都需要将陌生人的人脸照片导入到模型之中,对模型进行优化。
“火爆异常的AI换脸背后的工作流程并不难理解,用户将照片导入后,计算机会通过网络模型对照片的像素点做调整,从而生成与影视剧中人物表情及所处环境、光线等相匹配的人脸,实现AI换脸。”刘泽康告诉新京报记者,“为达到换脸的目的,计算机需要对人脸图像进行大量的数学运算,如果图片数量过少,模型不够优化,识别不够精准,计算机便很难较好地实现识别功能。”
新京报记者发现,刘泽康的电脑中,存放着几万张的人脸照片。这些图片被按照相机种类分别储存在文件夹中。记者随意点开刘泽康电脑中的一个文件夹,显示共包含有2855照片。每个照片的名称分别为其数字编号,采集场景及人物表情不尽相同,但均为正常拍摄。
据刘泽康介绍,这些照片大部分是从网络公开的数据库中下载的,也有数量相当可观的一部分系志愿者提供。“照片不包含志愿者身份信息,故不涉及侵犯公民隐私或者肖像权的问题。”
百度一名从事AI学习的技术人员对新京报记者表示,从业者收集大量人脸图片的目的就为了机器学习。“这本身是一个很枯燥的过程,比如拿到一张男性微笑的图片,你就人工标注‘微笑’然后给机器AI识别,人工标注的多了,AI自然就更加精准了,目前这些技术实际上早已落地,例如火车站人脸识别身份证图片”。
不过,也有从事隐私检测的程序员对记者表示,在拥有人脸识别功能后,有些机构反而可以更多地截取人脸图片。“用户在进行人脸识别时,机构在技术上是可以截存用户图片,从而形成自己独家数据库的,而这些截存下来的图片有可能他们自己用于训练AI模型,但也不排除用来买卖”。
该名程序员表示,原先有许多人脸识别相关的AI程序是开源的,“很多人甚至连人脸数据库都不用,可以直接下载已经训练好的模型,但自从ZAO引发争议后,一些模型和代码就不再公开了,这样导致了另一个后果,大家还得自己再找图片进行AI训练。”
而在刘泽康看来,技术本身并无原罪。“没有最精准的人脸识别,只有更精准的人脸识别。以酒店住宿为例,很多人都有过识别慢、难识别、识别条件苛刻等问题。如在目前一些酒店的人脸识别系统中,对于佩戴眼镜等饰品或强光照等条件下,识别不够精准,需要一再重复识别,研究的意义就在于可以拥有更快更精准的人脸识别系统。”
“AI换脸作为一种新型的技术,各方面配套还有待完善,需要社会各方向积极方面去引导,不能因噎废食。”刘泽康认为。
“目前,人脸识别技术已经被广泛运用于智能门锁、移动支付、手机解锁等,减少窃密、造假、冒用、顶替等可能,提升安全系数;在公司、商场、机场、学校等场景下,人脸识别技术可以提升管理效率,提升交互体验;在刑侦及公共领域,人脸识别技术可以协助抓获潜逃多年的嫌疑犯,能够在一定程度上帮助失散多年的家庭团圆,执法效率和社会公共安全得以大幅提高。”百度安全总经理马杰对新京报记者表示。
新京报记者 罗亦丹 李大伟 编辑 李薇佳 校对 张彦君
luoyidan@xjbnews.com