Ewan Birney是一位自学成才的程序员,他转行成为生物信息学家之后却让生物学家们看待和认识DNA序列信息的能力和方式有了一个极大的提升。
“我的终极武器就是聊天,说服别人来加入我们。” Ewan Birney在最近的某个下午接受了采访,介绍他在自人类基因组计划之后最伟大的基因组研究项目中的工作内容时这样开玩笑地说道。Ewan Birney是一位自学成才的程序员,但是现在他却是英国欧洲生物信息研究所(European Bioinformatics Institute in Hinxton, U.K)的一名生物信息学家。Birney充分发挥了他的口才,“拉拢了”442位科研人员一起来破解人类基因组密码,他们不仅会破解基因的功能,同时也没有放过其它的非编码功能元件,简而言之就是“一个都不能少”。这项继人类基因组计划之后最伟大的基因组研究项目就是DNA元件百科全书项目(Encyclopedia of DNA Elements, ENCODE)。ENCODE项目组首次就发表了30篇科研论文,他们已经初步揭开了人类基因组DNA的面纱。Birney在这个项目里主要负责数据分析方面的工作,他还和他在欧洲生物信息研究所的助手Ian Dunham一起负责制定质控标准,开发标准操作流程,发表科研结果以及开发解读基因组数据的新方案等工作。美国马里兰州贝塞斯达美国国立健康研究院(U.S. National Institutes of Health in Bethesda, Maryland)的院长Francis Collins就指出,如果没有Birney的领导,ENCODE项目不可能开展得这么顺利。
有人认为Birney成功的诀窍就在于年轻。今年只有39岁的Birney与任何人都能够聊得来,他什么都能聊,而且对什么话题也都有所了解,能发表一点他自己的意见,这就是他所向披靡的利器。据EBI的Paul Flicek介绍,很少有机会听Birney说‘不’,当然其他人也很难对他说‘不’。EBI的所长Janet Thornton也补充指出,Birney就是那种非常聪明,也非常自信的人。但是他的那种自信有时也会给人傲慢无礼的感觉。所以也会招致一些人的反感,但主要都是和他年纪差不多的男性。
还有一些人觉得Birney就像那种“十万个为什么小孩”。比如Birney每年参加美国冷泉港实验室举办的基因组生物学年会(annual Biology of Genomes meeting at Cold Spring Harbor Laboratory)时都会提无数个问题,基本上每一个演讲者都会被他问到,当然这也或多或少地占用了其他人的提问时间。在EBI内部的高级经理会议上,Birney的话痨本质表现得更加淋漓尽致,以至于其他人要说话都得先举手。Thornton指出,Birney是他认识的人当中最外向的一个人。不过他认为Birney完全没有意识到这一点。
安静的小孩
Birney小时候可不是这样的。他最开始上学时有诵读障碍(Dyslexic),也经常会因为拼写错误被其他人嘲笑。但最后Birney却成为全英国最牛的私立学校伊顿公学(Eton)的高材生。之后又在他进入牛津大学之前,以最优秀理科生的身份在1991年获得了到美国冷泉港实验室实习一年的机会。在冷泉港实验室实习期间,Birney主要跟随生化学家Adrian Krainer(他主要研究RNA与蛋白质之间的相互作用)学习,而且还就住在James Watson家里。据Krainer回忆,在那个时候他们就已经可以看出Birney的领导才能了。
不过后来Birney对计算机产生了浓厚的兴趣,并且在冷泉港实习期间在寒假里自学了计算机编程。然后他利用电脑通过对DNA序列进行比对的方法对多个物种蛋白质里的RNA结合位点进行了分析并且发表了一篇论文,这篇论文至今已经被引用了500多次,而且即便20多年过去了现在还有人在引用这篇文章。
但是Birney当时可没想过自己以后会成为一名科学家。在他读大学期间曾经在某个暑假到一家投资银行实习,他觉得那里的工作非常有意思。可是在Birney大学的最后一个暑假他又跑到美国马里兰州巴尔的摩市在市长办公室里打工(因为当时的市长Kurt Schmoke是Birney的大学学长,所以给他安排了这次实习的机会)。据Birney回忆,他当时的工作主要就是在有赞助人来的时候表现得优雅、英式和迷人一点。Birney的实习经历还包括一个星期的秘密警察以及参加成人读写能力训练班等。
在牛津大学就读期间正值Sanger中心(Sanger Centre)成立,Birney刚好又碰上了Sanger中心的Richard Durbin,于是又和Durbin一起为Sanger中心建立了一个DNA数据库。到Birney离开牛津大学的时候他已经写出了一个可以自动比对DNA序列的程序。Birney指出,这让他后来写程序的速度快多了,而且也开始写更加复杂的程序了。其中比较著名的一个开源程序就是Genewise,连大名鼎鼎的Celera公司(这就是由J. Craig Venter创办的参与了人类基因组测序的私立科研机构)都使用了这个程序。Birney也帮助参与了知名的Ensembl网站的建立工作。
Birney毕业之后Durbin帮他在Sanger中心申请到了一个待遇非常不错的职位,后来又撺掇着Birney继续去剑桥大学读博士,而不是到某个投行工作。据Wellcome基金会Sanger研究所(Wellcome Trust Sanger Institute)的生化学家Alex Bateman回忆,Birney当时其实已经是一名优秀的科研人员了,而且还有着深厚的计算机背景和很多想法。
可Birney的所作所为一点也不像一名研究生。比如他在1997年的时候就指出当时Sanger中心的首席生物信息学家Tim Hubbard使用的编程方法有漏洞,而且还说服Hubbard采用了另外一种叫做“以目标为导向(object-oriented)”的编程方法。Hubbard指出,Ewan从来就没有想过他不应该告诉一位比他年长20岁的人该怎么做,而且他也不认为这么干有什么问题。
不过就是因为这些不羁的行为才让Birney早在研究生阶段就已经在重大的分子生物学科研工作中留下了他的印迹。他为专门收录各个蛋白质家族信息的数据库Pfam重写了程序,使这个数据库功能更加强大,而且让它成为了一个模块化的组织。而且Birney还有一项重大创新,那就是采用了一种新的数据存储模式,在这种模式下每一位用户都可以跟踪到数据的历次修订记录。
人类基因组计划
不过这些工作还都只是副业,因为Birney加入Sanger中心之后很快就被卷进了疯狂的人类基因组测序工作(Sanger中心比Celera公司更早开展人类基因组测序工作)当中。当时美国人类基因组研究所(U.S. National Human Genome Research Institute,NHGRI)的所长Collins说道:“多亏有了Ewan我们才能完成那么多艰巨的数据分析工作。” 因为Birney和他的同事们很快就意识到他们需要一套计算机程序帮助他们对海量的DNA序列进行处理,自动从测序结果中鉴别出基因序列。Hubbard为此写出了一个连他自己都觉得“糟糕的”程序,不过Birney和Sanger中心的博士后Michele Clamp接手之后终于搞出了一套自动序列注释系统。Birney回忆说:“我们当时接受的也是死命令,他们要求在近期内一定得成功,可是之前还从来没人干成过。虽然结果让我们很高兴,可科学不是这么干的,下死命令干不了科学。”
Birney在2000年从Sanger中心来到了EBI,开发出了基因组网站Ensembl,这样公众也都能从网络上获得基因组序列信息了。这个网站自从诞生之日起就成为了科研人员们获取基因组数据开展基因组研究的中心。Birney甚至还开设了一个数额巨大的赌局,赌人类基因组中的基因数目有多少。
Birney早年除了上述这些“事迹”之外还有其它精彩的瞬间。比如他和他的太太Barley Laycock就是在伦敦的单身公寓里相识的。当时Birney还是一名开源软件的热衷者,正打算通过购进的方式成立一家公司专门从事为他人提供Linux服务的业务(Birney也为开源的Linux系统写过代码)。但是他当时还不知道该如何筹集并购资金,就只想到了炒股票这一种方式。“不过当时决定炒股真是一个明智的选择。” Birney说道。因为当时的股票暴涨,很快Birney就用炒股赚的钱买了一辆宝马Z3跑车。2003年Birney又赢得了英国皇家科学院专门用于鼓励有潜力的年轻科研人员的Francis Crick大奖。
在EBI主要负责核酸数据库方面工作的Birney和主要负责蛋白质方面工作的Rolf Apweiler也都在研究比对技术。但是他们俩可完全不一样,简直有着天壤之别,Birney也承认这一点。在Birney的旧办公室里堆满了论文和好几台电脑,而且在他的办公桌上还有一大罐马麦酱(Marmite),这是他的零食。Apweiler的办公室可就干净整洁多了。Birney的生活哲学就是“先这样吧,待会再说”。“而且我很善于让别人也接受这一套。”Birney说道。如果说Birney属于大大咧咧型,那么Apweiler就属于“谨小慎微”型,他在干每一件事情之前都会先考虑得非常清楚,连每一个很小的细节都不放过。所以他们两个的搭档刚好属于互补型。“我总是只考虑结果,所以很少考虑细节,Apweiler刚好和我相反。” Birney说道。
接手ENCODE项目
2003年人类基因组项目完成之后Collins又给Birney带来了一项全新的挑战。NHGRI又启动了ENCODE项目,当时这个项目计划对人类基因组序列中1%(不过最终会扩展到对全基因组)的部分进行综合分析并且会收录各种各样不同的序列分析结果。Collins说道:“当时我们就很清楚,ENCODE项目不是一个获得数据的工作,而是一个处理数据、分析数据、整合数据的工作。”来自美国华盛顿大学(University of Washington, Seattle)的John A. Stamatoyannopoulos也是ENCODE项目的一名工作人员,他说道:“Birney他既拥有科研素养,又精通计算机,而且他还具有很强的领导才能,他是把我们凝聚在一起的‘万能胶’,简直就是ENCODE项目最恰当的领导人选。”
Birney参加电话会议或者直接飞去美国出差的次数非常多。比如在2011年10月,ENCODE项目组正处于准备发表研究结果的时候,Birney平均每晚都会有两个电话会议,在整个4年时间里他一共召开了675次电话会议。他的工作就是确保ENCODE项目能够顺利开展下去,他需要不断地在各个参与ENCODE项目的顶尖科学家之间协调,保证他们能够顺利地合作。Birney评价他自己的这份工作就是“保证这个科研合作活动能够维系下去,解决出现的困难,做好基因组解析工作,同时还要确保不能阻碍科研人员们的创新工作。”
冷泉港实验室就好像是Ewan Birney的第二个家,他曾经在这里实习了一年时间,其中还包括一个暑假(最下图中穿橙色衣服的那个就是Ewan Birney),而且每年都会回去参加实验室主办的基因组生物学年会。中间的照片是他2003年参加年会时在茶歇的时侯拍的,其中左手第二个人就是他。最上面这幅图是2010年参加年会时和Francis Collins的合影,当时Birney正在介绍他最新的想法。
作为整个项目的负责人,Birney必须确保他的项目成员彼此之间都有足够的交流,而且他们都能赞同整个项目的工作流程,包括对试验细胞系、数据质量操作规程、统计分析等各个细节方面的统一,这样才能确保最终结果的一致性。不过Birney非常成功地做到了这一点。参与ENCODE项目的科研人员,来自美国耶鲁大学(Yale University)的生物信息学家Mark Gerstein指出,我们整个团队真的合作得非常好,就好像一支合作多年的交响乐队,Birney就是我们的指挥。ENCODE项目的前期工作主要使用的都是芯片测序数据。但是随着DNA测序技术的不断发展,测序的成本也降低了很多,所以他们后来就开始对感兴趣的DNA片段直接进行测序。在ENCODE项目测序模式的转变过程中Birney也起到了关键性的作用。
ENCODE项目能够顺利进行还有一部分原因是因为他们是这个事业的先驱者,早在2007年就已经发表了相关的文章(Science, 15 June 2007, p. 1556)。他们的前期工作一共凝结成了5篇论文,但是审稿人很快就在中间发现了相互矛盾的地方。据Birney回忆,当时感觉真是一场灾难。经过了激烈的讨论之后他们最终决定只发一篇文章。参与了ENCODE项目的冷泉港实验室的Thomas Gingeras介绍道:“Birney的态度很明确,不过他也很开放,总想把所有的意见全都摆到桌面上,然后找出最好的解决方案。他可以说是一位非常公正而又开明的领导,而且他还精力充沛,不知疲倦。”
ENCODE项目的最终研究结果已经公布了,他们安排了一系列的论文“轰炸”计划,计划在《自然》(Nature)杂志上发表6篇文章,在《基因组学研究和基因组生物学》(Genome Research and Genome Biology)杂志上发表24篇文章。同时为了让广大读者都能够尽可能多地看到这些文章,他们还推出了iPad应用和网站,读者可以通过这些方式浏览所有这30篇文章(不过只有部分片段)。他们还设置了 “增强子(enhancer)”、“与疾病的相互作用(interaction with disease)”等13个关键字,帮助读者检索他们感兴趣的信息。Birney表示,看看别人都选择了哪些关键字也挺有意思的。现在这些相关的文章已经可以在《科学》(Science)杂志的网站上看到了。
还有一些人喜欢自力更生,Birney也考虑到了这部分需求,所以他们在ENCODE项目的主页上还提供了一个“虚拟机(virtual machine)”服务,用户可以使用这个服务亲自体会一下Birney他们是如何从最初的原始数据得到最终的分析结果的。Birney希望他们的这种设计也能够成为一种潮流,因为他希望所有的运算分析工作全都能够设立一个“虚拟机”,这样其他人也都可以非常清楚地了解到他们的研究结果是从何而来的了。
未来的发展
ENCODE项目的工作已经告一段落了,但是Birney可没有因为这而闲适下来。他有一个幸福的家庭,有两个孩子需要他多花一点时间陪伴,可他每天要从伦敦北部维多利亚区的家里花费很多时间到Hinxton上班,所以Birney每天的日程表都排得非常紧张。他每天早上7点半就要离开家,先走一段路,然后再转一段地铁,还要再坐40分钟火车(幸好在火车上可以上网,Birney都会利用这段时间收邮件),最后再转公交车才能到达工作单位。每天晚上5点半再折腾这一趟回家陪他6岁的儿子和3岁半的女儿。所以基本上只能在晚上召开电话会议了。
Birney每天的日常工作基本上都是开会,他们要讨论如何维护EBI那80个网站,还要和来自英国以及世界各地的宽带服务商代表们讨论(他们主要负责提供EBI与世界各个大学和科研机构的高速宽带接入服务),通常一个会都要开3个小时。现在Birney又在忙于申请欧盟的2500万美元经费,他们计划用这笔钱借助超级计算机的帮助开展个性化医疗(personalized medicine)方面的研究。Birney还需要抽时间和EBI的同事讨论他们的其他工作项目。
Birney也没有放弃他的编程工作,他们正在开发一个CRAM软件,这个软件是一个数据压缩工具,可以帮助存储更多的原始数据。Birney还与心血管医生展开了合作,帮助临床医生更好地利用基因组学数据;与遗传学家合作,开展了青鳉(fish medaka)育种工作和果蝇表型——基因型分析等工作。据Birney解释,提供服务就是他的日常工作,他就是负责提供大的发展方向的。但是他可不希望放弃科学研究工作。
BIRNEY计划的下一个大项目就是泛欧洲生物信息学计划(pan-European bioinformatics effort),简称ELIXIR计划,现在这个项目已经在筹备之中了。Sanger中心的Hubbard认为生物学的数据量肯定要比物理学多得多。单单就他们EBI这一个机构现在处理的DNA序列数据量就已经比2005年时多出了2000倍,而DNA序列信息还只是各种生物学信息中一个很小的部分。而且各国还都在建立各自的生物信息学数据库,这就让情况变得更加复杂。据EBI的所长Thornton介绍,为了让整个生物(信息)学的发展更加有序,EBI希望可以建立一套协同机制,使所有人通过一个接口就能进入所有这些数据库进行综合搜索,从而能够得到最全面的数据和信息。已经有13个欧洲国家表示愿意参与这个计划,EBI也将在明年推出这个为期20年的计划的所有操作细节,不过该项目的经费目前还没有完全落实。
EBI将是整个ELIXIR项目的中枢。Thornton、Birney和Apweiler计划利用全欧洲的大型计算机帮助他们储存数据,当然不会只是基因组和蛋白质方面的数据,还会涵盖来自包括人类在内的数千种不同生物的分子信息和表型信息。英国政府已经承诺在未来的十年内投入7500万英镑(约合1.2亿美元)用于购置计算机以及新建一栋EBI大楼。EBI也计划在3年内将员工人数增加一倍。Birney也已经在芬兰找到了一家大型造纸厂,这家造纸厂的规模巨大,水电资源丰富,而且气候宜人,温度适宜,是建立大型计算机中心的最佳地点。今年2月,Birney还到巴塞罗那采购了计算机设备,他还计划到土耳其再考察一下。
随着ELIXIR项目的顺利开展,Birney也开始计划ENCODE项目下一阶段的工作了。他、Apweiler和Thornton希望将EBI打造成全世界生物信息学家的圣地和引力中心。不过Birney他本人倒还真是一个引力中心。Bateman感慨地说道:“但凡有点成就的人都有他们自己的吸引力。他们都很善于使自己成为中心,然后让其他人围绕他们转动。”
“Ewan就是拥有这种魔力的一个人。”