为了做到这一点,必须为这些算法提供数十万个不同面部图像的图像。这些照片越来越多地来自互联网,数百万人在不知情的情况下被发布,按年龄,性别,肤色和其他几十个指标进行分类,并与大学的研究人员分享。公司。
随着算法越来越先进 - 意味着他们能够更好地识别女性和有色人种,这是他们历史上一直在努力解决的任务 - 法律专家和民权倡导者正在对研究人员使用普通人的照片发出警告。这些人的面孔在未经他们同意的情况下被使用,以便为最终可用于监视他们的技术提供动力。
专家和倡导者说,这对于可以被描述和定位的少数民族来说尤其令人担忧。
“这是人工智能训练集的肮脏小秘密。研究人员经常只抓住野外可用的任何图像,“纽约大学法学院教授Jason Schultz说。
进入该领域的最新公司是IBM,该公司在1月份发布了一系列近100万张照片,这些照片是从照片托管网站Flickr中删除的,并编码描述了拍摄对象的外观。IBM向研究人员推广该系列,作为减少面部识别偏差的渐进步骤。
但是,当NBC新闻告诉他们他们的照片已经注明了包括面部几何和肤色在内的细节时,一些摄影师的图像被包含在IBM的数据集中,他们感到惊讶和不安,可能会被用来开发面部识别算法。(NBC新闻在公司拒绝分享之后从一个消息来源获得了IBM的数据集,称它只能由学术或公司研究小组使用。)
“我拍摄的所有人都不知道他们的照片是以这种方式使用的,”总部位于波士顿的公共关系主管格雷格·佩弗里尔 - 孔蒂说道,他在IBM的系列中有超过700张照片,被称为“训练数据集”。 ”
“看起来有点粗略,IBM可以使用这些图片,而不会对任何人说任何东西,”他说。
监督IBM人工智能研究的约翰史密斯表示,该公司致力于“保护个人隐私”,“将与任何要求从数据集中删除URL的人合作”。
尽管IBM保证Flickr用户可以选择退出数据库,但NBC新闻发现,删除照片几乎是不可能的。IBM要求摄影师通过电子邮件发送他们想要删除的照片的链接,但该公司尚未公开分享数据集中包含的Flickr用户和照片列表,因此没有简单的方法可以找到包含哪些照片。IBM没有回答有关此过程的问题。
IBM表示,其数据集旨在帮助学术研究人员使面部识别技术更加公平。该公司并不是唯一一个以这种方式在互联网上使用公开照片的公司。许多其他研究机构已经收集了用于训练面部识别系统的照片,许多较大的,最近的研究组织已经从网上被删除。
一些专家和活动家认为,这不仅仅是对数百万人的隐私权的侵犯,这些人的形象已被扫除 - 这也引起了人们对面部识别技术改进的更广泛担忧,并担心它将被法律使用执法机构不成比例地针对少数群体。
“人们同意在不同的互联网生态系统中分享他们的照片,”研究人工智能的社会影响的AI Now研究所的联合主任Meredith Whittaker说。“现在,他们不情愿或不知不觉地投入到可能以压迫方式对抗社区的系统的培训中。”
面部识别是如何演变的
在建立面部识别工具的早期阶段,研究人员付钱给人们来实验室,签署同意书并在不同的姿势和照明条件下拍照。由于这是昂贵且耗时的,因此早期数据集仅限于几百个主题。
随着2000年代网络的兴起,研究人员突然获得了数百万人的照片。
“他们将进入一个搜索引擎,键入一个名人的名字并下载所有图像,” P. Jonathon Phillips说,他收集用于测量国家标准与技术研究院人脸识别算法性能的数据集。 。“一开始,这些人往往是名人,名人,演员和体育人士。”
随着社交媒体和用户生成的内容接管,普通人的照片越来越多。研究人员将此视为来自YouTube视频,Facebook,Google图片,维基百科和面部照片数据库的免费抓取面孔。
学术界经常诉诸其工作的非商业性质来绕过版权问题。Flickr成为面部识别研究人员的吸引力资源,因为许多用户在“知识共享”许可下发布了他们的图像,这意味着其他人可以在不支付许可费的情况下重复使用他们的照片。其中一些许可证允许商业使用。
为了在Faces数据集中构建其多样性,IBM表示它利用了Creative Commons许可证发布的1亿张图片集合,Flickr的所有者雅虎在2014年作为研究人员批量发布。IBM使用自动编码和人工估计将该数据集缩小到大约100万张已经注释的面部照片,其中包含近200个值,用于测量面部特征,姿势,肤色和估计的年龄和性别等细节。 NBC新闻获得的数据集。
这是从网络上抓取的数据集海洋中的单个案例研究。根据Google Scholar的说法,在这些庞大的照片集合背后写了数百篇学术论文 - 其名称有MegaFace,CelebFaces和Faces in the Wild--这些都有助于提高面部识别和分析工具的准确性。很难找到能够在记录中谈论他们的训练数据集起源的学者; 许多人使用从网上抓取的图像集合进行了研究,没有明确的许可或知情同意。