生物信息这个领域,做数据库是公认为最没有技术含量,最灌水的工作:无非就是看点儿文献,收集一点儿相关数据,花两个礼拜的时间学一点Php,如果有必要再学一点点MySQL,OK,数据库可以做了,文章也可以发了,发完了可以毕业了,平时闲扯的时候可以吹吹说发篇数据库如何如何容易之类。
好吧,做数据库不是个难事儿,难就难在,你如何让你的数据库成为主流的数据库,你如何让学者们愿意去用你的数据。这就很难了。第一,你需要不断地维护。很多年前,我朋友就告诉我,做一个新浪这样的网站其实不难,PHP+MySQL,新手都能做,新浪牛B就在于它的更新速度超快。做数据库易,更新难。大家现在发文章,讲究的是一次性,跟擦屁股纸一样,擦完就扔,所以做完了,也就做完了,什么都不会留下。第二,你需要非常清楚用户的需求。我们第一个数据库MiCroKit做的很糟糕。不是因为内容,而是因为这个领域的学者其实并不需要数据库,所以即使做的再好,他们也不会去用。当然喽,当年做这个纯粹是为了发文章而发文章,现在只好郁闷了。这两个方面我们自己做的很不好,最近也在思考如何加强。
数据跟数据库是不分家的。美国有NCBI的GeneBank,欧洲有EBI和UniProt,连小日本都有DDBJ,可我们呢?啥都没有。没有自己的品牌数据库,其结果就是,没有自己的数据。没有自己的数据,那么,数据的格式、存储、规范,你都得由别人来定是吧?所以,不管你怎么做,你永远得跟在别人后面。
想起前几天专家给我的建议,要我做实验,做科学问题。其实我个人觉得,如果这一生能做一个Genebank级别的数据库,做一个BLAST或者PAML级别的计算软件,那此生也不虚度了。