生物信息和科技服务行业正在经历从1.0时代向2.0时代的变迁。在这个变迁的浪潮下,生物科研工作者,科技服务从业人员都面临着哪些挑战和机遇?从业十五年的百迈客CEO郑洪坤认为:云模式,才是打开基因科技服务2.0时代的正确方式。
基因科技服务1.0时代:测序数据少,分析以标准分析为主且主要由服务公司完成
我很有幸一入行就进入了生物信息行业,到现在算起来也有15年了。这些年见证了生物信息和科技服务行业的发展。科技服务在一代测序时代就存在,爆发式发展是从二代测序开始之后,随着二代测序进入市场,测序价格大幅下降,二代测序被更多的科研工作者应用。科技服务的模式的初期,由于测序数据少,科学家们选择一些有特点的物种、品种或者性状进行测序,数据稍加分析就可以得到让科研工作者为之兴奋的结果,科研的创新度较高,发文章的概率也高,因此大大激发了科研人员用测序技术做研究的热情。这个测序数据较少,分析要求不高且分析工作单纯的由服务公司来做的阶段可以定义为“科技服务1.0时代”。
基因科技服务2.0时代:PB级公共数据、云端可视化自主分析的基因大数据挖掘时代
随着技术的不断发展,测序成本越来越低,数据也越测越多,已经提交到NCBI SRA数据库的数据就已经达到12P以上。特别是人、水稻、小鼠、玉米、猪、牛、大豆等一些重要物种数据积累的数量巨大,而且持续保持着高速增长。其中蕴含的巨大价值也开始引起广大科研工作者的兴趣,同时科技服务1.0模式中的数据挖掘程度已经不能满足科研的需求,科学家对数据做更深入挖掘的需求越来越高,需要更多探索性的、个性化的分析,以从众多同质化的科研项目中脱颖而出。
图1.公共数据逐年增长情况
图2.Top10公共数据分类(单位:Tbases)
数据分析要求变高,对科技服务类公司无疑是个大的挑战。首先,对科研数据的深入挖掘往往涉及到更深层次的科学问题,个性化程度极强,这就要求生物信息人员不但要掌握生信专业知识和技能,还有有相对丰富的生物学知识,才能真正理解科学家的需求,对服务人员的要求大大提高;其次,由于科研工作本身探索的就是未知领域,存在相当的不确定性,数据分析的结果不一定和科学家最初的科研设计一致,会导致科学家对服务公司的满意度不高。因此科研工作者开始不断的换公司进行尝试,随着小公司的不断涌现,稂莠不齐,科技服务市场也越来越混乱。数据分析同质化严重,数据深入挖掘程度不足,沟通效率低,分析成本高等开始制约科技服务行业的发展。因此必须通过变革,用一种新的更高效的模式来逐步优化现有的科技服务模式。
因此很多人都想到搭建生物云平台,在云端放上需要的软件,放上需要的数据,让科研工作者可以自己去分析,可以根据自己的需求去做深入数据挖掘,提高科研效率。有不少公司开发了生物云平台,但是能被科研工作者所广泛应用却不是一个容易的事情。
适合生物科研工作者的云平台必需具备以下四点要求:首先,需要对客户数据分析需求有深入的了解,这就需要有非常丰富的的分析经验,并且可以在现有科技服务模式上不断提炼客户新的需求;其次,要保障所用软件数据准确性,就需要丰富的实践经验,需要有多年、成千上万项目的积累;再次,要让生物信息开发和IT开发“两手抓,两手都要硬”,即要保证云计算底层架构是符合基因大数据研究的需要,也要保障生物信息软件符合IT开发的高要求,可视化并简单易用的;最后,要有符合当前客户特点的培训体系,让客户能快速上手操作,在平台上能够很容易找到实现自己需求的分析工具和数据。
如此“高配”的要求,正是导致之前开发的一些云平台不能为科研工作者所用的真正原因。这些平台,要么里面只有标准化流程,客户想要解决的深入挖掘问题不能实现,要么只是各种软件叠加上去,客户看着无从下手;又或者只是在云计算的底层做了大量开发,而应用层开发不到位,导致客户根本不会用。
“百迈客云”使以上问题得到破解。百迈客8年的科技服务经验中提炼出的客户需求,数以万计的项目分析经验保证了分析的准确性,顶级生物信息人才和计算机人才团队的超融合,多年生物信息培训班等知识传播经验为百迈客云平台的开发和应用提供了有力的保障。从而使云平台能够更好的满足客户数据深入挖掘的需求,能够在科研工作者中广泛推广和轻松使用。这种模式让我们的研究人员有更多的精力去把握科学技术前沿发展,设计科研的思路,不用担心生物信息和IT的技术问题,真正实现了我们一直以来希望的客户通过云平台自己做分析,相比科技服务1.0模式是一个颠覆性的变革,“授人以鱼不如授人以渔”,这种可以让生物学家在云端对自有数据结合PB级公共数据自主进行可视化、交互式基因大数据挖掘的科技服务模式我把它定义为“科技服务 2.0 时代”。
百迈客云,让每个课题组都轻松具备生信分析能力,引领基因科技服务2.0时代
图3.基因科技服务2.0时代
百迈客云提供了“云服务”和“云账号”两种模式。 “云服务”是测序分析的项目以“云服务”的模式开展,所有的项目数据都会推送到云上,标准分析都由技术人员完成,项目相关的数据深入挖掘和个性化分析部分由技术人员带领客户在云上进行,客户也可以自主在云端进行数据分析,简单来说就是数据分析科研人员想自己做就自己做,不想自己做就交给公司做,这种模式能够解决服务公司售后个性化分析期限的问题,科研人员可以在云上进行分析,直到文章的发表;“云账号”主要针对做过或熟悉高通量测序,手里有一些没有完全挖掘的数据,还想充分利用公用数据的用户,经过简单的培训后,就可以在云平台上自主分析数据,多种分析软件都可以使用,深入挖掘自己以前的所有项目数据,也可以利用NCBI等公共数据进行挖掘研究,课题组的多个成员可以同时开展多个项目,提高研究的效率。
科技服务2.0时代对科研工作者是一个新的机遇。对于科研经费相对充足的科学家,自己往往做较多的测序项目,以云模式进行分析能节省大量的分析经费,提高经费的使用效率,产出更多科研成果。对于科研经费相对不太充裕的科学家,可以通过充分利用公共数据进行科学研究,节省了不必要的测序费用,用云模式同样可以产出丰硕的科研成果。
百迈客云从2013年开始开发,经过小伙伴们2年多的开发和内部外部测试,以每周一个新版本的迭代速度于2015年正式迈入市场,成为全球第一个针对生命科学家的“Turn-key BioCloud”,2016年开始全国推广。百迈客云得到了像中国科学院院士陈润生院士、中科院基因组所于军研究员、北京大学罗静初教授等中国生物信息领域的权威专家的大力支持和帮助。百迈客云日臻完善,可以开放的让科研工作者来体验和使用,目前已经有上万科研用户注册使用,开启了云端自主数据深入挖掘的新时代。得到广大科研用户的肯定是对我们最大的鼓励,百迈客“云模式”将持续迭代开发,继续引领科技服务2.0时代,更好的服务于科研工作者,加速科研创新,“成就客户”是我们服务的理念,让每一个课题组都具备生物信息分析能力,让每一位科学家能从百迈客云模式中受益。