第二届大人群研究鼎峰论坛圆满召开,产学研医共议未来机遇与挑战

2023-03-14 15:49 · 生物探索

近年来,随着基因测序技术的高速发展,大人群基因组研究逐步实现了从0到1的跨越

近年来,随着基因测序技术的高速发展,大人群基因组研究逐步实现了从0到1的跨越,助力研究人员持续性深入挖掘"从个体到人群""从序列到序列"的奥秘,从而多维度地破解和解读医学与人类健康遗传的密码。大人群队列研究是一项需要国家、科研单位、产业公司以及商业资本一起携手和配合来共同推动的长期投入性工作。

2023年3月11日,由华大智造主办的“群”观 · “测”万象——第二届大人群基因组研究鼎峰论坛顺利举行。

来自国内各大科研院所和产业界的专家齐聚一堂,聚焦于大人群队列研究的现状与未来、挑战与机遇,为线上、线下参会同道带来了精彩的学术分享与热烈深入的讨论。

1678781162500153.jpg

杨爽 研究员

华大集团执行副总裁、东区首席代表

会议伊始,首先由华大集团执行副总裁、东区首席代表杨爽作开场致辞。杨爽表示,近年来,大人群队列在精准医疗领域的重要价值逐步凸显,日益成为国际生命科学与疾病领域的前沿与焦点。大人群基因组研究是一个体系性的工作,需要建立科研、临床、产业协同发展与成果转化的良好机制,同时,充分利用队列研究的成果为国家的卫生政策和临床决策提供关键依据,也是摆在行业面前的巨大任务。在多年发展历程中,华大一直以生命时代探路者的身份,不断推动着以基因组学为代表的多组学研究突破及发展应用,一步步向“生命时代”迈进。未来也将不改初心,持续用自身在工具开发和基础研究方面的能力为行业和合作者赋能,与大家一道为“生命时代”的真正到来而努力奋斗。

1678781189984777.jpg

李斌

华大集团副总裁、《生物经济》主编

随后,华大集团副总裁、《生物经济》主编李斌作开场致辞。李斌指出,世界已经进入大科学时代,基础研究组织化程度越来越高。大人群、大队列研究就是迫切需要提高组织程度的基础研究领域。世界也已进入生物经济时代,我们必须深刻把握生命科学爆发式发展的历史契机,深刻把握生物经济发展规律,从基础研究、从大人群基因组研究这个源头出发寻求突破。

主旨演讲

DNA, HGP & PreMed

基因科学是一本教科书。杨焕明院士以抗击新冠疫情为例,他指出,中国政府在2020年1月12日向全世界分享了新型冠状病毒的基因序列图谱,这标志着我们已经悄悄地进入了一个新的时代。抗击疫情带给我们最大的认知和认同是:基因组学及其核心技术——测序对生命和健康极具重要性。

1678781238459394.jpg

杨焕明 院士

中国科学院院士、华大集团联合创始人

杨焕明院士提到,生命科学史上有两场“革命”。首先,DNA双螺旋结构的发现,距今已经70周年,这是生命科学的第一场革命;人类基因组测序则是生命科学史上的第二场革命,它开创了合作新文化、开辟了组学新领域、催生了解序新技术。

基因变成信息,就此改变了我们对生命的认识,而测序技术则是基础。杨焕明院士强调,基因测序技术面临三项挑战,即数据、智能化和人才的培养。目前,测序技术经历了自动化和规模化,经历了痕量核酸测序、生态/混合样品先测后“解”、液体活检的多股浪潮,探索不同层次的表现型和巨大数量样本的采集和分析是细胞/发育生物学的又一场革命。此外,杨焕明院士还提到人工智能的运用以及人才队伍对于测序技术的重要性。“只有大科学、大数据、大平台、大团队和大合作才能成就序列化、数字化、规模化、产业化以及全球化的技术突破。”他表示。

人体外貌特征差异的影响因素及其与健康疾病的关系——

基于自然人群队列的发现

汪思佳研究员对人类遗传及表型特征的多样性进行了研究。他指出,在对围绕EDAR基因的研究中,他发现其中V370A位点的突变会对多个表型产生影响,包括汗腺密度、毛发粗细及卷曲程度、铲形门齿、耳垂及下巴形态等。这种现象叫“一因多效性”(Pleiotropy),即一个基因同时影响多个表型。基于“一因多效性”可延伸出两个研究方向:人体外貌特征差异的遗传发育与进化机理以及人体外貌特征差异与疾病/健康状态的联系。

1678781294925460.jpg

汪思佳 研究员

中国科学院上海营养与健康研究所副所长

在过去十年间,汪思佳研究员通过与多个人群队列的合作,采集了超过万余例的同时拥有人体外貌特征数据与多组学数据的样本。其中针对指纹花纹表型的研究发现肢体发育相关基因决定指纹花纹,该项成果于2022年发表在Cell杂志。而其针对皮肤生理表型在自然人群中个体差异的机理研究则获得了德国“CK皮肤生理学研究奖”。

汪思佳研究员作为核心骨干参与了国际人类表型组计划。项目通过系统的精密测量,包括分子表型测量系统、细胞表型测量子系统、影响表型测量子系统和功能表型测量子系统对人类表型测量数据标准体系进行跨尺度、跨时空、多维度的构建和测量。利用国际人类表型组计划产生的深度表型数据,汪思佳研究员将进一步对人体外貌特征与疾病和健康表型的一因多效进行解析。

A Pangenome Reference of Chinese populations

徐书华教授表示,精准医学精髓首先就是将病种细分,然后是在病种细分的基础上细分病人入组。我国人群多样性和大量人口基数支持细分病种和对病人精细分型,这是发展精准医学的优势之一。虽然基因分型不是达到精准的唯一途径,但提供了新的可能。基因信息最大的贡献就是对诊断、预后、治疗三阶段的分型。基因测序已经成为精准医学大多数情况下需要考虑的重要途径。

1678781338254265.jpg

徐书华 特聘教授

复旦大学

“通过群体水平大规模基因组测序研究,我们希望了解人类基因组序列的功能意义和表型结果,以及复杂表型/疾病的遗传学基础。”徐书华教授表示,理解人类基因序列功能的三种典型途径包括:从基因出发的实验研究、从表型出发的医学研究、基于基因序列变异的群体遗传和进化分析。其中针对自然人群的“人体实验”是非人工设计的,我们自然人群本身就是一个人体实验场,能够反映表型和基因变异的遗传起源、群体历史和适应性进化等信息,从而了解人群形成和演化历程、理解现代人类遗传差异、指导医学研究。

徐书华教授牵头的中国人群泛基因组联盟,联合包括复旦大学、西安交通大学、中国科学院在内的多家高校机构进行研究,研究结果将显著提升NGS的基因变异判读准确性和精确性,有助于建立东亚人特异基因组变异参考数据资源和搭建相应的计算分析平台,进行复杂结构的变异解析。

DNBSEQ助力大人群队列研究和应用转化

从“人类基因组计划”起步,大人群基因组研究正在成为全球热点。据统计,目前全球共有近50个国家/地区宣布或已启动国家级群体基因组项目,到2025年预计全球将完成超千万例人全基因组测序。

1678781369968344.png

蒋慧 研究员

华大智造首席运营官

“十四五”期间,我国的大人群基因组研究也已进入新阶段。如何充分利用已有研究成果,解决数据产出等瓶颈问题,实现我国在该领域的前瞻布局与宏观规划?华大智造首席运营官蒋慧指出,在“精准医学研究”专项成果基础上,我们一方面需要进一步扩大队列规模,拓展专病、慢病和共病方向;与已建立的队列资源紧密衔接,最大程度释放已有数据价值;另一方面,需要进一步降低基因测序、影像检测、数据存储与管理的成本,解决基因数据产出与存储的瓶颈问题。同时,通过建立更标准化的质控、信息治理和脱敏数据共享,充分展示系列科研成果的示范与引领效应。

此外,针对大人群基因组研究的诸多痛点,蒋慧还介绍道,华大智造可提供全流程工具和系统性解决方案。华大智造DNBSEQ测序平台持续升级迭代,在全球已参与超过20个大人群基因组项目,这其中就包括了多项国家级基因组计划。2022年,已有超过60Pb群体基因组数据来自DNBSEQ测序平台。

作为华大智造最新推出的超级测序系统,DNBSEQ-T20×2拥有刷新全球通量纪录的超强生产力:单套系统一年可完成高达50000个高深度全基因组测序;同时,DNBSEQ-T20×2通过开放式的测序系统,可节省60%测序耗材,显著降低测序成本;此外 DNBSEQ-T20×2可实现从样本到报告的全流程自动化管控,支持快速部署与启用。

蒋慧指出,华大智造致力于提供超高通量、超低成本、“六化”完备的“存读算用”群体基因组平台方案,助力推进“人人基因组时代”。展望未来,华大智造还将根据实际应用需求,提供满足队列研究全景、全周期需求的智慧实验室。

Personalized Medicine Crosstalk of the Genetic Code and Drug Responses

Milana Frenkel-Morgenstern博士指出,个性化医疗寻求对个体基因的了解,以优化药物响应。因为无数因素会影响最终的治疗结果,所以药物反应是高度可变的。最新的全基因组关联研究为药物响应的遗传基础提供了一些借鉴。我们的研究揭示了潜在基因突变的检测结果将如何影响对药物响应的预测,并且,加入对基因融合的分析也能够改进对药物响应的预测。

1678781424870057.jpg

Dr. Milana Frenkel-Morgenstern

Bar-Ilan University

Elected member of the Board of Directors,Data Science Institute (DSI)

“很大一部分药物响应差异可以通过基因融合(结构变异)和其他基因变异来解释,因此,此类检测在日常临床应用中的有效运用能提高总体成本效益比。”Milana Frenkel-Morgenstern博士表示,可作为药物靶点的基因融合这一概念将被成功阐述。然而,在可预见的未来,预测复杂的药物响应仍然是一个挑战。因此,大规模队列的全基因组关联研究除了常见的遗传变异类型,还应该包括基因融合,以提高预测能力和发现可作为药物的靶点。

基于大队列数据的脑疾病探索

脑科学成为各国科学发展必争之地:2013年欧洲启动脑计划偏重人脑模拟,2013年美国启动脑计划偏重绘制脑图谱,2014年日本启动脑计划,2016年韩国启动脑计划。中国的脑计划则主要偏重脑认知、脑重大疾病诊治新手段以及模拟脑。

1678781455603018.jpg

赵兴明 特聘教授

复旦大学

赵兴明教授指出,在各国脑计划的支持下,建设了一批具有国际影响力的大型脑科学数据库。目前的脑科学数据库包括环境、行为、医学、神经和遗传的影响。我国脑科学大数据及算法中心至今待建,存在的问题包括:数据获取无统一质量标准,质量无保证;无共享机制,数据储存碎片化,数据资源无规模;分析算法、知识库依赖于国外,自主创新能力低。我国具有收集大规模全维度脑数据的基础,且亟需建立全维度脑数据库。在此背景下,全维度脑科学数据平台--张江国际脑库建立。

赵兴明教授介绍,张江国际脑库数据平台希望建立全维度、多模态、跨时空、多病种的平台,收集六个队列、1.5万例次病例;建立标准化、可比较、全维度、多模态的采集方案,进程血液样本采集、多模态脑影像采集、任务态功能影像采集,同时进行认知评估(Cantab)、心理量表/行为测试、环境评估、采集微生物样本。截止至2023年1月10日,六大队列共入组10796人,完成各模态采集35136例次。

SCALLOP Consortium: Exposing causal biomarkers for complex diseases using proteogenomics

沈侠教授介绍,SCALLOP联盟是指在Olink平台上对基因与蛋白质遗传关联的发现和追踪的一个合作框架。到目前为止,来自35家研究机构已经加入了这项工作,其中包括来自57项队列研究的超过80000名患者和对照组的汇总数据,不同的参与机构所测的蛋白的多少和种类有一定的区别,不过他们有一个共同的特点,几乎都有基因组的信息,能够共同完成大规模的蛋白遗传机制的研究。

1678781488745154.jpg

沈侠 教授

复旦大学

“通过联盟合作的形式,我们可以进行几万人的大样本数据分析,其中很多著名的队列虽然参与的样本量不大,但覆盖的蛋白质种类非常的丰富。” 沈侠教授举例,对于冠状病毒受体ACE2蛋白,疫情期间有很多研究需求,而Olink平台上,部分队列在早前的心血管疾病相关蛋白组分析中已经囊括了ACE2蛋白,方便了我们之后对大数据的直接分析。我们期待更多队列,特别是亚洲祖源的队列,加入SCALLOP联盟,将极大助力我们对人类蛋白质遗传机制的探索以及复杂疾病重要靶点的发现。

母儿对基因组学研究初探

——广州出生队列全基因组学研究 I 期

邱琇教授介绍,母儿对基因组学研究是基于DOHaD学说的队列设计。DOHaD学说是指,成年期的许多疾病(肥胖、2型糖尿病、胰岛素抵抗、哮喘、心血管疾病等)可能是由于宫内或儿童时期的暴露(如营养不良、致癌物等)所造成的,影响可代际传递。该项研究是一个大型前瞻性母婴队列——由广州市妇女儿童医疗中心主导,2012 年正式启动,旨在中国自然人群中开展代际健康研究,理解遗传与环境的相互作用,对亲子健康延续的影响。

1678781513487639.jpg

邱琇 教授

广州市妇女儿童医疗中心主任医师

2012年-2022年,广州出生队列已经招募5.4万对母子,建立了国际标准的千万级生物样本库,在库标本超过280万人份。队列内的样本与临床信息紧密结合,同时还进行多维表型数据收集,包括孩子心肺功能,体成分、肌肉力量等,对后续研究提供关键表型数据。邱琇教授指出,其中儿童癌症的发病率、死亡率数据是最难收集的,但对更全面认识各种因素对健康的效应至关重要。

据介绍,母婴基因组测序研究方面,一期研究已经完成约2000对母婴的全基因组测序;首次从遗传学角度揭示中国汉语言的差异,开展了母婴多表型GWAS研究,建立跨代孟德尔随机工具变量,剥离宫内环境和遗传的效应。

二期研究正在进行中:将逐步累积约1万对母婴全基因组测序数据,聚焦妊娠疾病/健康结局,包括:死胎、妊娠糖尿病、妊娠高血压、早产和胎儿生长受限等。

中国代谢解析计划ChinaMAP:疾病遗传易感性研究

对于人类来说,通过基因测序手段可以关注基因变异与疾病之间的关系。曹亚南研究员介绍,ChinaMAP研究关注两大类信息:常见变异和低频变异。常见变异对于部分复杂疾病特别是慢性病、代谢疾病非常重要。;另外ChinaMAP也关注低频变异,有助于从复杂现状或者复杂疾病中更好地鉴定出单基因遗传病。

1678781541455396.jpg

曹亚南 研究员

上海交通大学医学院附属瑞金医院

曹亚南研究员介绍,中国代谢解析计划目前主要针对疾病的方向包括:流行病,遗传性疾病、核心的慢行疾病(包括2型糖尿病等)。曹亚南研究员举例了中国人群血液病组学的研究发现:1.指环病毒,在76.7%的个体中发现TTV(Torque teno virus)和TLMV(TTV-like mini virus)。30.3%的个体中检测到HHV-4(EBV),高于欧洲人群队列的报道(14%)。2.乙型疱疹病毒(Betaherpesvirus)广泛检出:其中HHV7为 13.2% , HHV6A为0.36%,HHV6B为1.09%,HHV5为1.03%。

曹亚南研究员提到,新发现的良好标志物或者靶点,仍需要进行生物学功能的验证,以确定其是否可以作为疾病诊断或者治疗的标志物。希望ChinaMAP研究能够通过功能验证体系,在中国人群中发现一些重要功能的通路,或者解释部分基因在中国人群或者东亚人群发生作用的功能。

大规模中国人群单倍型参考序列的构建与研究

“利用基因组揭秘人类的生老病死”是人类基因组计划的美好愿景。但要完成这个愿望,需要寻找更具“代表性”的大人群大数据或者更“完整”的参考基因组。那些丢失了的遗传率去哪了?金鑫研究员指出,遗传病是基因组全突变谱与环境互相作用的结果,基于常见突变的遗传病研究常常(人为)缺失大量信息,低频和罕见突变同样与遗传病密切相关。

1678781567719343.jpg

金鑫 研究员

深圳华大生命科学研究院副院长

据悉,金鑫研究员目前正在进行的大规模中国人群单倍型参考序列库构建了迄今较高精度、较大规模的中国人群单倍型参考序列组(reference panel)。金鑫研究员简要介绍了该项目使用的研究方法:利用ref panel对基因芯片数据进行基因型填补(imputation),可显著提升芯片可检测位点数量与基因型质量;依托ref panel可以对中低深度测序数据进行基因型优化和定相,大幅提升基因型检测的准确性;结合自主可控测序技术的进步与成本降低,中低深度测序联合refence panel方案,将大幅替代基因芯片,为大人群研究带来新的机遇。

隐私计算赋能基因大数据共享与合作

王爽教授所在的团队是业内最早从事医疗隐私计算的团队之一,在该领域拥有超过10年的经验。团队采用安全联邦学习、多方安全计算、密码学、可信执行环境等技术,开发了一套安全性、稳定性、兼容性、易用性、精准度卓越的隐私计算底层基座,实现了“数据可用不可见”和“用途可控可计量”,已在医疗、金融、政务等领域与数百家机构达成合作。

1678781607638069.jpg

王爽 研究员

上海同济大学附属医院副教授、四川大学华西医院系统遗传研究院特聘研究员

医疗数据是高度敏感的,这类数据的种类有很多。例如在关于某种罕见疾病的科学研究中需要用到的数据,包括基因数据、移动医疗数据、电子病历数据(疾病、家族病史)等等。这些数据需要脱敏才能进行使用。然而,恶意攻击者结合公有数据库(例如,社交网络数据和脱敏数据)可以反推出被隐去的身份和敏感信息,使原有的保护手段失效。因此,我们需要更强有力的技术,能切实有效地保障医疗数据和患者隐私的安全,同时又不影响数据的可用性。

王爽教授指出,通过隐私计算技术(结合联邦学习,可信计算环境、多方安全计算等多种底层技术)来保证数据检索、模型参数交互、模型推理等数据应用过程中数据和隐私的安全性,使数据使用过程可追溯的同时确保计算结果精度。

圆桌论坛

在圆桌讨论环节,各位嘉宾围绕“隐私计算技术在数据脱敏中的思考与应用”发表了独特的看法。针对隐私计算技术的应用,曹亚南研究员表示,目前隐私计算技术还未充分得到应用,希望可以从实际应用出发进行研究性的开发;汪思佳研究员指出,大规模基因组研究对于隐私计算技术的需求非常大,让技术帮助数据共享;徐书华教授表示,隐私计算技术在数据共享方面的运用,一方面是出于隐私权利等伦理方面的考虑,第二,是知识产权保护方面的考量;第三则是技术方面的突破促进了数据共享的可行性。

1678781662561580.jpg

(从左至右)沈侠教授,徐书华教授,王爽研究员,马晓慧研究员,汪思佳研究员,曹亚南研究员

对于“药厂如何能更广泛有效地参与大人群基因组研究”,多位嘉宾也表达了自己的观点。天士力研究院专业院长马晓慧研究员表示,国际上高质量的人群队列组学研究在相关疾病领域(如罕见病、肿瘤等)指导包括源头靶点发现、精准诊断等正引领着全球新药研发。当前国内新药研发还处于紧跟国外的“跟”“改”和“买”的阶段,如何避免同质化,实现换道超车,还需要从源头创新-靶点基础研究转化上形成突破。这需要有临床和企业的转化医学团队协同合作,也依赖于测序技术和算法优化提升。

曹亚南研究员认为,从国外经验来说,从基因队列的研究到靶点的开发,再到管线的设计,有很多经验值得学习,对于中国医疗企业或者科研工作者来说,人群基因组研究需要落到“有什么用”上,真正运用到临床前研究、靶点开发、新药开发上。汪思佳研究员则表示,希望科学家和龙头企业进行合作,让科学家更了解一个赛道的底层逻辑,也让龙头企业在技术和资源上进一步投入,这样才能出现颠覆性创新。徐书华教授指出,企业需求和科学家的临床转化还未完全打通,其中的一个问题是,科学家缺乏一定的安全感,这需要从政策环境上提供一定的支撑。王爽教授则表示,药厂是有人群队列研究的需求,但目前数据尚未充分的远未实现共享,这需要法律法规的规范和技术的创新来共同来推动,才能形成产学研用比较好的循环。

此外,专家学者就“如果有人类基因组计划HGP2.0,在全球视野下会对国别基因组重大发展产生什么意义”进行探讨。曹亚南研究员认为,如果有这个计划,希望未来每个人都可及这些信息,让这些信息对每个人的健康服务,这需要整个产业的通力合作。

汪思佳研究员则认为,对于庞大的科学计划来说,数据可以产生的价值决定了支撑该计划的投入。基因组计划产生的数据如果可以进一步包括高质量的表型数据、环境数据等,那便可以吸引更多的产业界投入。而从学术角度出发,基因组与表型组及环境暴露组数据的配套产生,将可以更好地支撑起精准医学、精准营养等更多精准化研究。

马晓慧研究员表示,从应用角度,将更有利于实现精准医学和个性化治疗,也将能带动中国源头创新药物的研发。王爽教授指出,人类基因组计划HGP2.0如果能进一步降低测序价格,则有利于对每个人全生命周期的监测。徐书华教授认为,人类基因组计划HGP1.0的任务是测全字符,尚未彻底完成,那2.0的任务则是对结构单元、遗传代码的识别和进一步解码。

1678781710694998.jpg

余德健

华大智造总裁

会议的最后,华大智造总裁余德健在闭幕致辞中表示,华大智造始终相信生命科技核心工具的力量。前不久华大智造重磅发布的超高通量测序仪DNBSEQ-T20×2,能更好地满足基于超高通量测序的科学研究与临床研究的需求,推动基因组学、多组学和时空组学的大规模测序研究项目的开展,为基因科技的未来提供更多可能。DNBSEQ-T20×2的发布也标志着:一个人的全基因组测序成本从30多亿美元降至100美元以下,进一步满足了更多大人群基因组项目对更高通量、更低成本以及更大规模的需求,加速人人基因组时代的到来,将“基因科技普及惠民”真正照进了现实。

余德健指出,在未来,华大智造将一如既往地全力探索人群基因组的奥秘,用最先进的工具加速科研成果落地与临床应用转化,助力提升国内外精准预防、诊断和治疗的能力,为精准医学与全民健康的发展贡献支撑性力量。