王俊离职华大后正式宣布创业,新成立的公司叫“碳元科技”

2015-10-15 10:55 · 李亦奇

10月15日消息,第二届网易未来科技峰会在北京举行。在上午的主论坛上,原华大基因CEO王俊宣布创办深圳碳元科技有限公司。该公司联合创始人还包括原华大基因首席运营官吴淳、首席科学家李英睿及首席信息官黎浩。公司目前正在深圳注册,将于10月27日正式成立,现公司创始人为主要股东。

10月15日消息,第二届网易未来科技峰会在北京举行。在上午的主论坛上,原华大基因CEO王俊宣布创办深圳碳元科技有限公司。该公司联合创始人还包括原华大基因首席运营官吴淳、首席科学家李英睿及首席信息官黎浩。公司目前正在深圳注册,将于10月27日正式成立,现公司创始人为主要股东。

王俊告诉记者,这个创业项目是希望建立一个健康大数据平台,运用人工智能技术处理这些数据,帮助人们做健康管理。“我们要建一个‘虚拟村落’,聚集起多个方面的生命和环境数据,这是一个生态系统型的公司,我们会有许多合作伙伴。”王俊说。他透露,目前有许多机构已经与碳元科技有合作意向,其中包括研究机构、药厂、体检中心、医院、诊断公司、保险公司、健康管理公司等。

他介绍,碳元科技未来的数据来源,既有靠碳元科技本身的技术能力获取的数据,也有上面提到的合作伙伴分享的数据。碳元科技的数据是依靠该团队的核心技术获取,如基因数据、微生物数据(肠道、口腔、皮肤等)、蛋白及代谢数据(尿液、汗液、血液等)等。通过合作伙伴获取的数据有临床及体检数据、环境数据、运动数据、饮食数据等等。

现在医疗信息化行业也在热烈讨论医疗大数据,医疗数据大多在医院内部,在医院之外搜集数据也存在很多困难。王俊告诉网易科技,与之前主要在医院内部的医疗数据不同,碳元科技形成的主要是分子水平的组学数据,同时这些数据与其他收集到的数据集合起来,主要是起到疾病的预测和预防的作用、健康管理,而不仅仅是生病之后的诊断和治疗。

通过各个渠道收集来的数据,需要通过人工智能技术来处理。“大家谈到人工智能,就认为人工智能一定要达到人的智力水平或者比人还聪明才行,现在虽然还没达到那个水平,但是已经可以做一些比较初级的替代性的工作了。”王俊解释。王俊告诉网易科技,这方面是由碳元科技的技术合伙人——香港科技大学计算机系系主任杨强主导。杨强1982年毕业于北京大学,曾任华为公司诺亚方舟实验室主任,现为中国人工智能学会副理事长。除了继续强力引进科学技术合伙人之外,碳元科技还正在紧锣密鼓地全球招募商业合伙人、投资合伙人和传播合伙人。例如传播合伙人就刚刚加盟了艾问传媒的艾诚。“我们招募的合伙人一定要有能力、有担当、具备长远眼光和国际视野、还有就是总想搞出点不一样的动静!希望符合上述描述的人赶紧加盟!”王俊这样形容碳元科技的合伙人们。

以下是王俊的发言实录:

王俊:感谢主持人!我们即将成立的企业叫碳元科技。最近很多人都很奇怪我16年前创立了华大基因之后,为什么在这样的一个时候选择离开华大基因CEO的位置,去做一个完完全全前瞻性的事情。今天借这个机会描述一下它背后的科学逻辑,为什么可以这么做,为什么在华大基因走向正轨的时候选择这样一个更加前瞻性的,未来可以影响到人类和健康的更根本性、更前瞻性的事业。

生命的本质是以碳为基础的,元是本元,就是生命本身的源头。如果你用计算机的语言来讲它是一种碳机的智能,计算机是一种以硅为基础的智能。碳机本身的智能实际上是一直在变化的,如果我们思考生命本身是一个程序的话,每一个个体都是一个运行的不同的生命程序,他们的功能模块基因互相之间是一脉相承的。

如果我们看到大千世界的每一个物种实际上都有一个生命程序,不同的生命程序随着它生存环境的不同都在变化,也就是说,这一套生命科学的程序就是每一个个体所产生的程序,是他对应于他所适应的生存环境的一套生存策略,而这个策略不断的在改变,每一个人不一样,每一个物种也不一样。

跟计算机一样的是这套程序是可以被读出来的,16年前华大基因的成立就是为了解读第一个人类基因组的全部的基因图谱。而这种基因图谱可以被解读出来意味着什么,它意味着生命的天书每一个人的生命天书,可以以数字化的形式展现在计算机里面,因为DNA是全世界现在最高效的一种信息化的载体。

这种载体具备很多计算机的特征,比如说DNA是可以被拷贝克隆是一个最简单的拷贝器,我们可以将一个DNA完全拷贝和复制到另外一个DNA上。而且它可以编写,你可以对基因本身的程序进行修改,甚至可以被合成,所谓合成生命学和合成生命意思是可以用计算机编一个代码,在实际情况下把一个细节做出来可以尝试更多的生物学的项目。

在这一套生命程序,计算机程序可以读出来、写出来,甚至可以编辑,重新可以在计算机上编写这样一套 生命程序,但是到现在为止尽管我们可以用非常高效的方式解读每一个人的生命程序,但是对于生命、对于健康从来没有被真正理解过。这个生命的公式从基因到你最后所显示出来的生命状态,之间的生物学的第一定律,生命的公式从来没有被真正的解读过。

当然科学界已经做了非常多的尝试,最简单的一个尝试就是我们在几年前做的一个科学研究,去解读为什么藏族人在高山上能够比汉族人更加适应高原,因为在他的基因里有一个基因突变。所以科学研究让我们知道了很多的皮毛,这些皮毛把一些基因和它的对应的一些结果相对应起来。而且基因的进一步的发展,每一个人的基因可以让我们了解一些现状,比如说人类的迁徙史、种群的迁徙史。不仅知道爸妈是谁,而且知道500年前你跟谁是一家,1000年前你是谁。70%的中国人6000年前只来自于3个汉族男人。全世界所有的男人都往前追溯的时候,15万年前实际上是一个男人,所有的这些都蕴藏在你的基因里,因为每一代基因的变化都是可以追溯的。

基因的研究让我们发现可以控制很多疾病,比如说我们现在看到的地中海贫血,比如我们看到的很多先天性的缺陷,包括白化病,包括我们看到的各种各样你能够看到的缺陷。所有的这些非常稀有的疾病,在整个人群比例中并不稀有,这样七七八八的疾病会逐渐的被基因和疾病之间的关系再被解读。同时我们还知道了一些传染源,比如说一个孩子面临着发烧,你可以通过对他的血液进行测序,可以知道哪些微生物或者病毒感染的导致他发烧。这些都还不足以表明基因本身的潜力,比如说现在最热门的一个行业是基因可以用来做肿瘤的治疗,因为中来实际上是一种疾病的疾病在不同的环境下他的基因变化所引发的一种疾病。而这样的基因体细胞突变,因为个体不一样,所以个体化的治疗方案和检测是不一样的。所谓精准医疗就是针对每一个人本身的状况去对他进行精准的诊断和精准的治疗。

尽管基因科技有非常多的发展,尽管基因可能是现在投资领域最热门的一个行业,而且很多很多人都在做基因,但其实我们理解健康、理解基因、理解生命还差得很远。举个例子,这张图谱非常震撼,基本每一条染色体,每一个基因都有很多很多的区分,跟各种各样的复杂性有关系。

以二型糖尿病为例,中国二型糖尿病发生率是11%,从二型糖尿病来看有40个跟糖尿病相关的基因动点,但我们只解决了6%,还有96%基因的遗传性对于二型糖尿病是没有被完全认知的。更不要讲它所身受的微环境和大环境,如果我们知道30年前中国的糖尿病发生率只有0.67%,而现在已经是11%,30年的基因不可能有大的改变,什么变了?你的饮食变了,生活环境变了,生活方式变了。换句话来讲,有可能这些变化引发了你的肠道微生物的变化,肠道微生物你是体内最重要的一种外环境。像这样的东西都会引发各种各样的争议,我自己也把自己的基因测过很多次,用不同的手段。从我的基因图谱里可以知道什么?从我的基因图谱里发现了一个痛风基因的携带,痛风基因的携带,每天感觉一下我的关节会不会疼痛,吃海鲜、喝啤酒的时候都要想一下我有痛风基因的携带。更可怕的是自己在没有任何症状的情况下,尿酸的水平是高的。我自己经过基因的解读,发现我自己本身的尿酸代谢是有些缺陷的,尿酸代谢的缺陷可以通过什么去弥补,找来找去找到了一种茶,牛蒡茶,这种茶我天天喝,喝了以后是不是这样的一种茶可以帮助我体内的微生物去弥补本身的尿酸代谢的缺陷,这样在3个月之后我的尿酸的水平恢复了正常的水平。基因检测真的能给你带来这样的东西吗?我又看到另外一个更可怕的基因现象。因为我不是学医的,我Google、百度一顿查,发现这个病的死亡率非常高。发现原来中国人有一半人有基因突变,而基因解读的结果是基于一个很小的人群,并不是在整过中国人群的一个基础上来做的。

反过来讲,在中国人群特异的遗传背景的情况下,这个基因突变可能和原发性的肝硬化的比例会有关系。我告诉你,当你简单的做基因检测的时候并不能够真正的影响和预测你未来的健康,天书难解,唯一解读的方法是互换更全面的数据。所以碳元科技想要做的一件事情是构建生命科学的大数据,而我们非常需要这样的大数据。生命科学由以前的观察性科学、实验科学逐步的变成了理论化的科学,生命科学第一次用计算机、用数学化的方法来研究和拓展。

如果我们来看基因,基因其实只是一个基线,在基因水平上不同的条件情况下会有不同的反应,这个基因不会告诉你去不去登山,但是会告诉你登山以后你的身体有什么反应,而且会告诉你不断的训练马拉松以后,你会训练到什么水平的马拉松的成绩。所以从基因单纯的角度来讲,作为构建生命数据的基础,仅仅是一个基础的基线,你需要更多的基因的表达数据,基因的表达结构数据,所处的环境数据,包括肠道微生物,甚至包括社交的数据,甚至包括传感器的数据,包括各种各样你所能收集到的生命科学和生命体征的数据。这样的数据量能够达到百万级别、千万级别,海量数据的输入和输出将会成为未来健康产业的引擎。

这种百基因学,所有的各种水平参差的组学计划将会构筑精准医疗、精准健康、精准营养。每一个人现在测定一个基因图谱一万块钱人民币,但我认为在现在的互联网 的情况下,每一个人检测自己的基因应该免费。在免费的基础之上,有一个非常重要的假设,就是在大量的数据积累之后,所有数据所能产生的价值将远远超过它产生这个数据所需要的成本。这样的时间有多快到来?这样的时间马上就会到来。

有了你的了基因之后,你可以加上各种各样的东西,你可以加上你的生活习惯,加上你的管理的数据,加上你的饮食的数据,加上你的传感器的数据,加上你的环境的数据,包括PM2.5,是不是抽烟,肠道微生物怎么样等等。如果利用未来有可能智能化的互联网、物联网,所有的东西都是聪明的,聪明的床、聪明的车、聪明的厕所、聪明的房子、聪明的城市,让收集到的生命体征的各种各样数据,联合你的基因和基因表达和分子水平的各种各样的数据,就会重新促进人们对生命和健康的认识。有那么大海量的数据,人的大脑本身也许并不能够足够认识生命自身,我们需要什么?我们也许需要计算机的帮助。IBM做了一个尝试,他想用大型的基础数据做一个人工智能的系统替代大夫做肺癌诊断,最近有非常长足的进展。

大的计算量本身在中国现在也不应该是一个问题,除此之外当然还有人工智能的算法和引擎。有了这三个最核心的东西,也许人工智能和机械学习本身能够真正的重新书写生命的工序。小米小米是我们的主食,我们做了5000株 基因和各种各样的数据,在这些基础上构建人工智能模型,预测的准确率超过50%。小米只是一个在控制环境下生长的作物,人所处的环境要复杂得多,人的行为要复杂得多,但是在大量的数据基础之上,也许我们能够再造生命健康的水晶求。未来也许我们需要一个大白,需要一个健康管理的大白,大白能够管理你的健康。如果我们的程序的设定,对每个人来讲,对人,一个物种来讲,程序本身的缺陷会形成遗传病,程序本身的变异会变成肿瘤,我能不能早点知道,早点防。程序的运行如果不在一个正常的状态,或者不在一个最佳的状态,就会形成各种各样的慢性病,我能不能预防掌控它。在这个健康大白的基础上都可以控制。肿瘤的发生可以控制,基因和锻链是可以被精准预制的预知?实行可以改变肠道微生物。在所有认知基础上的修改和再造都重新会会自己个人的健康。

我们先谈的是每一个人的基因和健康,如果把每一个人都连接起来,15万年前所有的男人共享一个祖先,10万年前所有女人都有一个共同的祖先。我们本身是连接在一起的,想象一下从超级计算机到个人电脑,最后再到互联网,我们把它想象成基因,第一个个人基因,第一个人类基因组,每一个人基因组,把基因组连起来,它会带来什么,不仅仅是为自己,也是为全人类。基因本身是人和人之间最简单的最天然的连接,走失儿童将不会再存在任何问题,因为每一个基因都放在那,可以很容易的找到。每一个骨髓配型,基因放在那儿,骨髓配型将会是非常容易的事儿。病人将会对未来的医疗有更大的参与感,因为所有的这些病人他们的基因,他们的病例表,他们的生命数据特征,也许在某种情况下他们是一致的,而这些都会促使他们对疾病有新的认知。

当然以后可以配备基因,或者其实我们再看一下自己每个人本身,全球有70亿作为人的,生命,每一程序都是在试错,因为每一个程序都不一样。人类其实在试错的过程当中不断的修正和不断的往前演化,而我们自己本身的连接就会让我们在试错的过程当中很多东西会清晰化,因为每一个人都是特别的,我们都是生命程序本身的超级英雄。某种意义上来讲,其中一个基因在这个人的个体里面是一个疾病基因,可能在另外一个人的个体里面它是没有关系的,而那个人也许就能帮助这个疾病的个体。所有的基因连接起来它会寻找到那个特殊的超级英雄,它会形成新的疾病的治疗策略。

自然是以山清水秀为美,人以健康长寿为福,它将是最大的产业机会,当我们有了所有的健康数据,以互联网的方式联系起来以后,生命大数据和人工智能将如何给我们带来更加健康的新的生活,我想也许是未来10年、20年全球范围内最大的产业,因为它是在研究人本身的健康和每一,个人切身相关的关系。所以,某种意义上来说我们人生下面的10年、20年,希望通过我们的小伙伴和我们的整个团队来攻克这样一个难题,或者给这样一个问题带来一些有可能往前推进的线索,这个问题就是什么是真理。

王俊同时告诉网易科技,碳元科技几个月内就能有产品出炉,目前暂不对外透露。“到时大家就知道了。”他笑着说。

今年7月,华大基因官方发布公告,王俊卸任华大基因CEO一职,并主导组建以人工智能为核心、关注前瞻性业务发展的新业务机构。同时,王俊继续留任华大基因董事会,出任董事合伙人。

今年8月6日,王俊在接受网易科技专访时认为,目前促使基因与人工智能结合的科技和商业的要素都已经具备。

他当时谈到,尽管现在越来越多的基因信息被检测出来,成本也越来越低,但是对基因信息的真正理解,目前还非常初步,还远远没有到能够在基因层面完全解读生命奥秘的地步,也远远没有能够真正地在这个原点的基础上促进未来生物产业蓬勃发展。要想做到对生命信息的真正理解,需要一个大型的生物链数据化的一个数据库,同时需要人工智能系统来处理这些数据,从中找到规律。

当时,他认为接下来要做的就是,“很快搜集健康类的大数据,就是各种各样的生命体征和信息的大数据,然后在这个数据基础上,去建立一个人工智能的内核模型,然后把它对接起来,做这样一个整合。”他当时透露,计划用3到5年内筹资100亿来完成这个计划,并且希望这个计划的实施是全球化的,不仅仅局限在中国,

“我们做的是平台和生态系统型公司,和现有华大的服务模式会形成很好的互补,比如这当中涉及到基因检测的部分,我们是要交给华大等数据产出公司来做的,华大将会是我们很重要的合作伙伴。我们做的事情主要是将生物技术、生命大数据、人工智能和互联网结合起来,这个事情有一定的前瞻性。”王俊说,“这个项目,我们先不着急赚钱,先要把平台搭起来。” 碳元科技目前还未引入外部融资,初期启动资金是由几位创始合伙人筹措。但据说很快会展开第一轮融资。

王俊认为,每个个体都是一个运行的生命程序(基因组),它们的功能模块(基因)一脉相承。基因一直在变化,可以被读出来,也可以被拷贝,甚至还能被编写,但生命的公式从未被真正理解。科学研究让我们知道了一些有关生命的皮毛知识,比如人类、种群、个体历史等,我们发现和控制了一些单基因遗传疾病,知道了一些传染源,也出现了一些曙光——肿瘤的个体化治疗。但我们离理解健康还很遥远,更不用说理解生命。

王俊认为,生命大数据的构筑将会使我们了解生命、掌控生命。通过收集基因数据,结合基因和锻炼、饮食、传感器、环境、物联网等数据,我们将能快速认识生命和健康,认识人类自身。而在这个未来,人工智能、深度学习等技术将成为关键。

“世界在同时运行70亿个生命程序,生命在不断试错中前行,基因的连接将让我们对生命不再迷惘。”王俊说,基因与人工智能可能是未来20年最大的机遇。