本文转载自“澎湃新闻”,原标题:美国学者称基因检测行业存隐私隐患:可从样本反推消费者长相。
基因检测日益普及,通过少量的血液或唾液样本,人们试图了解自己的祖先是谁,身体是否有健康隐患等。
但美国科学院院士、“科学怪才”克雷格•文特尔(Craig Venter)本周发表在《美国国家科学院院刊》(PNAS)的论文给基因检测行业的隐私安全扔下一颗“炸弹”:从DNA序列中,通过机器学习的算法,人们可以反推知道,这份DNA序列的拥有者是什么肤色,有着什么颜色的瞳孔,甚至声音如何。
而过去,像美国基因检测公司23andMe和药企合作,根据海量消费者的基因数据进行疾病基础研究时,做出保证,消费者的基因信息都是匿名化的,不会泄露隐私。在文特尔看来,这些承诺都是“虚假的”,他呼吁更全面的措施来监管基因检测中的个人隐私问题。
尽管,他作为联合创始人的“人类长寿公司(Human Longevity Inc)”也涉及基因测序业务,收集了大量基因组数据。此次论文的第一完成机构也是“人类长寿公司”。
在社交媒体推特(Twitter)上,文特尔团队的文章引起波澜。当地时间9月6日,另一家美国DNA检测公司MyHeritage的首席科学家、哥伦比亚大学计算机学助理教授Yaniv Erlich将质疑文发至无需同行评议的预印本网站bioRxiv,指出文特尔团队论文的“主要错误”,认为其实际上并没有利用全基因组信息中的标记物来识别身份。
随后,文特尔团队中完成该论文的第一作者Christoph Lippert在推特上回复:“(这是)数字时代的同行评议。我们正在准备相应的答复。”
算法来预测DNA背后的人像
文特尔团队在发表于当地时间9月5日的论文中表示,他们实现“身份反推”所依靠的是基于机器学习的算法。他们搜集了1061个样本进行训练,建立起基因信息和面部特征、声音等的关系,并搭建了模型来预测DNA背后的三维面部结构、年龄、身高、体重、肤色、瞳孔颜色和声音。
三幅人脸对比中,左侧为真实人脸,右侧为算法预测的人脸。
为了测试这套算法,研究人员选取了10位来自不同种族志愿者的图像和基因信息,并打乱,然后让计算机进行配对。结果显示,计算机的配对正确率是80%。但如果测试对象是来自同一个种族,比如欧洲裔或非洲裔,配对的正确率会有所下降,为50%。
文特尔团队表示,就目前而言,这一算法对肤色、瞳孔颜色等简单特征已有较高的预测准确率,但在声音等复杂特征上还有些困难,也无法准确预测DNA拥有者是不是秃头,有没有雀斑等。
但研究人员表示,目前算法还仅基于千余个样本的训练,随着样本的增加,准确率会得到改善。
通过DNA数据来预测拥有者的面部特征是文特尔近两年的主要工作之一。文特尔被冠以“科学怪才”的称呼,他曾成立公司与“人类基因组计划(HGP)”的六国科学家公开竞争,并因开发新的测序技术成功追赶,后和六国科学家合作,完成该项目。此外,他还先后完成全球第一个人工合成生命体和最简单的人工合成生命体。
质疑:只是根据人口统计学上的平均值来进行了预测
但“怪才”的名号没有为文特尔避免此次的学术争议。
美国DNA检测公司MyHeritage的首席科学家、哥伦比亚大学计算机学助理教授Yaniv Erlich毫不客气地将质疑文发表在预印本网站bioRxiv,认为文特尔团队论文存在几大“错误”。
其中,Erlich指出的一点是,他通过仔细查看论文图表后发现,文特尔团队从基因数据中并不是挖掘出了与面部特征有关的标记点,而只是从中知道了DNA所有者的祖源和性别信息。“原作者并不知道某位特定个体的身高或者面部结构,他们只是根据人口统计学上的平均值来进行了预测。”Erlich说。
在推特上,Erlich还翻出了自己一年前的推特。当时,文特尔根据自己的DNA“预测”出了一张侧脸三维图像,并在推特上发表了虚实对比图。但这遭到Erlich的“吐槽”,他随即找出了美国影星布莱德利•库珀(Bradley Cooper)的侧面照,表示:“很多白人男性在相同的拍摄角度下,看起来都很像预测出的这张脸。”
左侧为克雷格•文特尔(Craig Venter)的真人照,中间为预测图,右侧为布莱德利•库珀(Bradley Cooper)真人照。
“如果文特尔的方法真的那么棒,为什么他们不在获得允许的情况下,从公开的基因数据库中直接挑一个基因样本,看看能不能识别背后的身份?”Erlich在质疑文的末尾写道。