近年来,在基因组学和测序技术的飞速发展的背景下,大人群队列在精准医疗领域的重要价值开始逐步凸显,日益成为国际生命科学与疾病领域的前沿与焦点。2022年8月20日-21日,由深圳华大智造科技股份有限公司主办,深圳华大生命科学研究院、深圳华大基因股份有限公司协办的群“测”聚力,乘“序”追因——大人群基因组研究鼎峰论坛顺利举行。论坛首日聚焦于群体遗传学与大人群基因组的学术与产业前沿,来自国内各大科研院所和产业界的专家齐聚一堂,为线上、线下参会同道带来了精彩的学术分享与热烈深入的讨论。
精准医学、人工智能与核酸药物
陈润生 院士
中国科学院
首先由中国科学院陈润生院士带来大开场致辞与主旨演讲。陈润生院士回忆了华大成立之初的点点滴滴,对华大一路走来取得的巨大发展与成就表示由衷的高兴。随后,陈润生院士围绕精准医学、人工智能与核酸药物的前沿发展带来了深入浅出的分享。从20世纪初蔓延全球的大流感,到非小细胞肺癌的流行病学,人类与疾病斗争的过程,深刻体现了组学大数据对于疾病精准判断、合理用药、有效治疗的关键作用。陈润生院士认为,医疗体系正在发生本质变化,从诊断治疗转变为健康保障,并带来从科学研究到产业等层面的一系列改变。
生物大数据具有多尺度、高维度、异质化、在时空上动态变化、非线性、双色(多色)等特征,给数据处理带来了一系列挑战。陈润生院士认为,实现生物大数据助力精准医学的三个关键在于:①分子组学的搜集与整合;②表型组学的表征与定量;③微观与宏观的偶联破解生命与疾病的“黑箱系统”。人工智能在其中可以发挥重要的作用。陈润生院士提出,人工智能的发展有三个重要因素:模型、数据、算力,其中数据至关重要,如何建立共识,如何实现标准化是亟待解决的问题。而在模型层面,现有的神经网络算法距离真实的大脑仍有差距,尚有进步的空间。
陈润生院士随后对核酸疫苗、核酸药物的前沿发展进行了总结和阐述。RNA药物是近年来兴起的“第三代药物”,有着若干优势:①不会干扰基因组的稳定性;②成分简单,在靶点确定后,RNA药物的发现和设计较为容易;③RNA合成较为简便。RNA药物的修饰能够提高RNA的稳定性,提高翻译效率,降低免疫原性并增强递送。与RNA疫苗相似,递送系统在RNA药物中也发挥着至关重要的作用,是学术和产业界目前最核心的问题。陈润生院士提出,占人类基因组97%的广大区域尚未纳入当前药物研发的范畴,研究证明这些区域和人类生长、发育、疾病密切相关,非编码核酸药物是尚未开发的原创药物的巨大源头。
数据安全法与人类遗传资源管理
何跃鹰 教授
国家互联网应急中心
国家互联网应急中心何跃鹰教授以《数据安全法与人类遗传资源管理》为题带来了主题报告。大数据作为重要的生产资料和战略资源,意义极为重大。目前,世界各国都提出了国家层面的数据战略,并建立起数据安全监管体系。顺应时代背景,我国的《数据安全法》快速出台,为数字中国建设提供了制度保障。何跃鹰教授对《数据安全法》进行了详细、深入的解读。电子形式的生物样本信息以及生物样本本身均包含在数据范畴内。国家已经建立起数据分类分级保护制度:一般数据依法流动,重要数据控制出境,核心数据从严管控。何跃鹰教授指出,根据《数据安全法》,生物医药企业负有数据安全保护义务;根据《重要数据识别指南(征求意见稿)》,人类遗传资源信息、基因测序原始数据应当属于重要数据的范畴。对于重要数据,数据安全责任制、数据安全风险评估和数据出境合规是监管的三个重点。何跃鹰教授随后围绕这三个方面为人类遗传数据的管理者提供了具体的数据安全建议,并分享了“国家生物数字海关”的相关研究和探索。
中国十万人基因组计划与基因组大数据解析关键技术
刘博 教授
哈尔滨工业大学
本次大会上刘博教授分享了“中国十万人基因组计划”的部分阶段性成果,刘博教授是“中国十万人基因组计划”项目首席科学家哈尔滨工业大学王亚东教授的团队成员,参与了该项目的研究,该项目是精准医学专项的重要组成部分。
从基因组1.0时代绘制人类基因组序列图谱,到基因组2.0时代绘制本民族的基因组变异图谱,再到基因组3.0时代建立起基因组变异与疾病的关系,各国基因组计划的规模越来越大,精度越来越高。哈尔滨工业大学的刘博教授介绍,中国十万人基因组计划目前完成了31064个样本的全基因组测序,绘制了“万分之一精度”的中国人基因组变异图谱,发现了2.9亿个中国人基因组变异,超过1.1亿个新变异,填补了6.1万个中国人群常见SNV变异等,与国际同类基因组计划相比,测序规模大、新发现变异多、图谱精度高。与此同时,研究团队建立了可视化基因组注释系统;构建了中国人参考基因组面板(Reference Panel),在推断东亚人群上具有更低的推断错误率;建立跨尺度表型网络图谱,为一系列常见疾病建立个性化健康评价与预测模型。在中国十万人基因组建设过程中,建立了全链条的大规模基因组计划工程技术体系;研发了自主可控的基因组数据解析核心算法,包括二代测序片段比对算法deBGA、三代转录组长序列片段比对算法deSALT、三代测序结构变异检测算法cuteSV等,在国际上取得了良好的反响。刘博教授最后感谢了华大智造在大规模基因测序平台方面提供的支持,为中国十万人基因组计划的顺利实施提供了良好的保障。
华大智造国产可控工具赋能大人群基因组研究
蒋慧 博士
华大智造首席运营官
对人类基因组的研究致力于回答和人类健康相关的重大问题,大人群基因组研究正在成为全球热点。华大智造首席运营官蒋慧博士指出,大人群基因组研究进一步深入面临着一些难点与挑战,包括表型/环境数据收集,大规模数据产出,人群长期随访,数据共享安全等。在数据产出及应用层面,大人群基因组学研究的核心工具包含着四个关键部分:存、读、算、用。随着测序技术的发展,测序成本不断降低,使得大人群基因组研究成为可能。
蒋慧博士指出,在独有DNBSEQTM核心技术等多层面技术的支撑下,华大智造搭建起自主可控的源头性核心技术体系,赋能大人群基因组研究。蒋慧博士随后详细介绍了DNBSEQ测序平台的性能和技术细节。DNBSEQ平台实现了高中低通量全覆盖,其中DNBSEQ-T7超高通量测序仪每年可产出>10000个高质量高深度WGS测序数据,已经应用于多个大人群基因组研究之中;更大规模的DNBSEQ-T10x4RS在产出通量、测序单价方面更是达到了极致。
MGIGLab-L全自动文库制备生产线为测序文库构建提供了标准、稳定的解决方案。MGIClab-LT系列超低温自动化生物样本库能够为生物样本标准化、自动化保存提供助力。在计算层面,ZTRON基因数据中心一体机能够实现海量基因数据管理,并在信息化管理系统中发挥作用。
核心工具的研究最终目的是服务于大人群基因组研究,蒋慧博士指出,华大智造的核心工具已经应用于包括中国代谢解析计划ChinaMAP、中国十万人基因组计划、十万例罕见病患者全基因组测序计划等中国乃至全球多个大型研究中,基于DNBSEQ测序平台累计产出基因组数据超过100PB。蒋慧博士最后总结了大人群基因组研究新的机遇与挑战,包括:①从“读”到“存读算用”;②从基因组到多组学;③从数据产出到数据挖掘与共享;④从科研到临床应用。在创新工具的帮助下,人人基因组时代相信会很快到来。
基于大人群队列的复杂疾病易感基因定位
杨剑 教授
西湖大学
西湖大学杨剑教授以《基于大人群队列的复杂疾病易感基因定位》为题带来了主题报告。从全球和中国数据来看,慢性疾病已逐步成为人口死亡最主要的因素。性状是基因信息与环境共同作用的结果,遗传率(Heritability)代表着遗传因素在其中所占的比率。通过全基因组关联分析(GWAS)对群体基因数据进行分析,旨在找到某些遗传变异位点与个体特质或疾病的关联,但对于大部分性状而言,相关的位点很多,单个位点对性状贡献很小,以UK Biobank为例,使用30余万人的数据(最大样本量)对BMI位点进行分析,筛选出493个位点,只能解释4.4%的BMI变异。杨剑教授团队借助优化的分析模型对基因组大数据进行分析,指出那些没有或接近没有效应的突变,更容易被保留在群体的基因组中称为遗传变异,而这些效应很小的变异位点的排列组合,足以让群体产生适应各种环境的性状,这种现象被称为微效多基因模型(polygenic model)。杨剑教授分享了寻找复杂疾病致病基因的一些经验,提示我们通过GWAS寻找到的是功能信息,可能是基因的调控元件,而它所调控的基因距离可能很远。杨剑教授提出,当将多组学数据整合到一起时,单一GWAS位点不一定会体现在所有的组学层面,但大多数至少能够找到一至两个组学相互验证。以上这些研究和案例都体现出多组学数据对生命科学和疾病研究带来的深刻影响。
基于基因组大数据的中国人群蛋白截断变异图谱绘制与研究
金鑫 研究员
深圳华大生命科学研究院
金鑫研究员指出,大人群基因组是人类基因组计划的延续,同时也是国际竞争的焦点。金鑫研究员介绍了华大牵头完成的迄今最大规模的中国人群基因大数据研究,覆盖14万中国人群,并建立了最大的中国人群基因频率数据库。该研究绘制了精确到每个省份的中国人群等位基因频率谱,构建了中国人群遗传病的分子流行病学图谱,解析了中国多民族人群的遗传与演化特征图,并全面解析了中国人群南北差异与演化历程,基于大人群数据挖掘基因组学信息与各类生命现象的关联。根据上述研究,搭建起中国人群基因频率数据库CMDB,以支持更多后续基因组学研究。
金鑫研究员介绍了蛋白截断变异(protein-truncating variants, PTV)的定义,PTV有重要的生物学与临床意义,有着潜在的临床价值。团队基于2万人群的银屑病研究课题的基因组学测序数据,开展中国人群PTV研究,关注PTV有害性分析及其在基因位置上的分布特征。部分PTV存在着显著的人群差异,如FUT2在欧美人群、非洲人群频率显著高于中国人群,EFCAB13则反之。研究团队基于上述数据和成果,绘制了首个中国人群蛋白截断变异图谱,共检测了8720个PTVs,其中77%是新发现的,预计88%是有害的。金鑫研究员认为,时空组学技术将带来生命科学领域的第三次科技革命,借助单细胞/时空组学技术描绘生命的分子机全景图谱,有望为生命科学与疾病研究开拓更多可能。华大将持续开发自主可控的生命科学核心工具,做好底层支撑,实现合作共赢。
人类遗传资源法规要求与管理实践
李根平 研究员
原北京市实验动物管理办公室(北京市人类遗传资源管理办公室)主任
李根平研究员首先介绍了中国出台人类遗传资源管理法规的背景与发展历程,《中华人民共和国人类遗传资源管理条例》(以下简称《条例》)的出台为遗传资源的保护提供了法律依据,但仍面临着一些困境。李根平研究员随后详细解读了《条例》的原则和各项要点,《条例》的宗旨在于有效保护和合理利用我国人类遗传资源,维护公众健康,维护国家安全,维护社会公共利益。人类遗传资源信息的采集、保藏、国际合作等由科技部负责审批、备案与登记,特别是重要的人类遗传资源信息向国外组织、个人等提供和共享,需要进行备案审查。《条例》规定,禁止外国组织、个人及其设立或实际控制的机构在中国采集、保藏、向境外提供我国人类遗传资源。《条例》鼓励利用资源开展合作研究,对研究合理性、成果归属、中方成员参与等方面提出了一些要求。《条例》实施后,人遗项目申请量激增,同时出现了一系列新的挑战,如国家安全、生物安全保护与生物医药创新的平衡;规避监管措施的现象;部门协调管理机制需要进一步落实等。另一方面,在《条例》执行中也发现了一些问题,如样本采集、保藏和转运不规范,第三方检测机构处理不规范,外资检测机构数据管理存在漏洞等。李根平研究员指出,相关单位应当遵守法规,合法从事人类遗传资源采集、保藏、出境、研究和共享。
大型福建队列之精细化福清队列建设
叶为民 教授
福建医科大学
叶为民教授指出,以大型队列为基础,整合生物样本库、遗传和基因组数据库、表型数据库等建立越来越大的生物银行正日渐成为全球的趋势。表型组与大型队列存在取与舍的问题,而精细化人群队列在有限的可接受的人群队列中,采集尽量多的表型组,以实现数量和质量的均衡。福建大型普通人群队列(福清队列)规划覆盖20万人群,致力于实现精细化、高应答和低失访。叶为民教授从现场选择、数据管理与质控、基线采集内容、生物样本信息、实施流程等方面带来了经验分享,并介绍了截止到目前福清自然人群队列的基本情况。目前福建队列共入组4万例,其中福清队列2万余人,在糖尿病、高血脂、高血压、慢阻肺等疾病方面积累了较为全面的人群数据。基于初步的队列数据,福清队列进一步新增了项目,包括认知评估、眼科、脑血管功能评估等,并针对当地的实际情况如方言等进行了调整。组学数据层面,计划覆盖50000人,包含基因组、宏基因组、代谢组、蛋白组等。叶为民教授指出,随访是队列研究成败的关键,大数据技术的发展为疾病随访率的提升提供了良好的契机,福清队列也在数据中心建设方面积累了一些经验。
圆桌论坛
首先,各位嘉宾围绕“当下中国大人群基因组研究所面临的最大挑战”发表了自己的看法。针对数据共享的问题,多位嘉宾提出,应当进一步推动大型队列数据共享平台和共享机制的建立和完善,通过业内广泛的讨论梳理数据共享的底层逻辑。沈侠教授表示,如何促进数据共享的透明和科学成果、临床成果的产出,是值得关注的话题。杨剑教授提出,不同的人对数据共享有着不同的认识,我们需要解决数据共享的问题,从而真正将大人群大数据的价值最大化地实现。袁慧军教授认为,数据分享跟科研文化息息相关,要找到合适的合作伙伴“双向奔赴”。
针对大人群队列研究实施的要点和挑战,多位嘉宾也表达了自己的观点,刘功姝教授表示,目前开展的天津市母婴出生队列已经有了一些基础,希望未来能拓展到国家层面的母婴出生队列。刘教授强调,随访是队列研究的一个极为重要的因素,关系到队列的质量和可持续发展。袁慧军教授指出,相较于我国人口的规模,基因数据和组学数据采集的速度仍然较慢;表型数据的收集维度应当更加丰富、全面。袁教授认为,样本“可追溯”机制的建立能够帮助解决数据不完整的问题。
此外,如何在确保数据安全的同时推进各个大人群队列之间的合作,也是讨论嘉宾关注的话题,各位嘉宾认为,跨地区、跨学科团队间的合作是大人群基因组研究持续发展,不断向临床转化的重要因素。
各位嘉宾展望了“未来5-10年中国大人群基因组研究的前景”。袁慧军教授表示,今年可能会成为“人人基因组时代”的元年,华大智造的测序平台在测序成本上有全球性的优势,数据质量过硬。在华大智造独特的测序技术和测序平台的支持下,未来中国百万级罕见病患者全基因组数据的积累将为生物医药领域的创新发展提供基础性的支撑。杨剑教授提出,是什么在驱动我们做大人群的基因测序?这可能是未来发展最核心的一个问题,基因测序如何能够影响到个体的生活,直接关系着是否真的能实现大尺度的、大人群的数据积累。此外,精准、低成本的长读长测序也是未来值得关注的发展方向。刘功姝教授认为,未来5-10年,中国人群的队列研究可能会走向两极分化,团队的合作与数据共享影响着一个队列未来的发展前景。沈侠教授指出,中国有数量丰富的人类遗传资源,也有很好的测序技术,希望将来能够真正基于中国人群数据诞生有世界影响力的研究,提高国际上我国人类遗传研究的显示度。