大样本数据库是影响基因数据分析解读的重要因素,也是影响测序产业链发展的瓶颈之一。如今,越来越多的志愿者将自己的基因数据贡献给科研,但是对于后续的数据反馈,却是一个值得深思的问题。近日,一位遗传学研究者在Nature网站上披露了如今遗传学研究中存在的问题:是否有必要将原始数据反馈给参与者?以下为她的自述内容。
存在问题:参与者被拒绝访问原始数据
作为一个人类遗传学工作者,我分析了成千上万份匿名者的DNA。今年早些时候,一个研究小组邀请我为他们的全基因组测序计划提供自己的遗传物质,当时我提出了访问原始数据的要求,然而被拒绝了,因为目前生物医学和遗传研究是不会将个人层面的数据反馈给参与者。
不过,我仍然加入了这项研究。讽刺的是,通过访问受限的数据库,包括我在内的成千上万名科学家能够获取到我的个人数据。随着对信息可用性的意识增加,我担心那些与我有同样顾虑的志愿者不再愿意为科研贡献自己的数据。因此,遗传学研究团队必须更新对原始数据反馈的态度。
就算科学家们有很好的理由来拒绝参与者访问自己的原始数据,他们也很少有机会接触到参与者,这样做虽然获取到了资源,但却远离了参与者的主要目标。不过,研究并不是做医学治疗,将数据反馈给参与者可能会带来医疗保健上误导,从历史上看,也很少有理由将数据反馈给参与者,因为他们没有可访问的工具来接收、存储并理解这些数据。
人们越来越渴望得到个人数据
在实验室之外,如今越来越多的人期望获得各种各样的数据,而且这种趋势没有减缓的迹象。人们对健康数据的期望更是如此,市场上“移动医疗”APP的纷纷呈现,正是反应了人们对个人健康数据的渴望。
如今,由商业公司、学术机构以及自学成才的公民科学家开发出的一些网络平台可以帮助人们探索自己的基因数据。例如,2011年推出的openSNP网站已经吸引了超过4000名用户,其中有一半上传了自己的遗传数据;去年10月份发布的 DNA.LAND平台,如今已吸引了超过32000人;2008年发布的第三方解释工具Promethease每天进行数以百计的分析报告;其他工具,如GEDMatch和 Genome Mate Pro,也吸引了数千名用户。
许多科学家怀疑或偶尔嘲笑基因组学消费产品,虽然这些产品存在缺陷,但反应了公民对个人遗传数据抱有怎样的态度。遗传学研究界与志愿者要保持良好的关系,就必须认真对待这些问题。目前许多大规模的遗传学研究依赖于原有数据库,但传统的数据库不能无限地激起未来的研究。
如何才能更好地实现参与者与科学研究的互惠?
遗传学研究机构需要开发一个基础设施,为有兴趣的参与者提供原始数据,根据研究性质的不同,返回的基因型数据格式可能不同,研究资助也应该涵盖这些内容。审查委员会应该能够审阅数据反馈机制。研究小组还应该制定和采用知情同意协议,使参与者能够自行决策是否被告知原始数据,知情同意书中还应包括自我解释和分析的局限性。
要使数据返回切实可行,需要建立相应的技术系统,如安全的网络接口。然而,我们已经拥有了安全和可靠的方法来共享科学界的数据,也许文化上的改变将是一个更大的障碍。
不过,一些项目也正在探讨这些问题。今年九月份,纽约基因中心发布了一款智能手机APP—— Seeq,个人可以通过支付一定的费用(约50美元)来获取他们的全基因组序列以及一些解释报告,如血统成分和微生物分布。反过来,研究人员也可以通过这种方式来搜集更多的基因数据。再如,华盛顿大学的研究人员开发了一个网站——MyGene2,允许家庭、医生以及研究人员之间分享基因测序数据以及医疗数据,以应对罕见的遗传疾病。
大多数常见的消费型基因检测只是检测了基因组的一小部分,随着成本的降低,外显子测序和全基因组测序将能提高更多的基因信息。基因组学工具的蓬勃发展,使得人们逐渐成为个人遗传数据的管家。
大数据时代带来了很大的问题,例如到底谁该拥有私人健康的研究数据。从法律层面上说,一旦提交给科学研究者,参与者将无法获取自己的生物样本或数据。但是作为研究人员,我们难道不应该尊重参与者寻求原始数据的自主性吗?要求访问原始数据不是为了索取所有权或控制权,只是为了一个合理的互惠。毕竟如果潜在的参与者可以从越来越多的商业公司获得基因数据,他们反过来或许也会把这些数据贡献给科研。
备注:本文根据Nature网站编译,原文链接为Geneticists should offer data to participants