石勇:大数据的“掘金”十年

2015-02-03 06:00 · angus

“今天人人皆谈大数据,却难以想象十年前人们对于这一概念的陌生。”石勇带着几分自豪说,“我们可是从十年前就开始从事数据科学研究了。”2004年秋,在应中科院领导之邀回国的石勇的主持下,数据挖掘与知识管理中心(筹)在中科院研究生院中关村校区正式成立。


“2001年3月,当我在美国内布拉斯加州立大学任查尔斯—玛格丽•德姆信息科学与技术讲习教授时,曾邀请时任全国人大常委会副委员长、国家自然基金委管理科学学部主任成思危先生去该校访问。”2014年年末的一天,在北京中关村的一间办公室里,中科院虚拟经济与数据科学研究中心常务副主任石勇笑着向记者回忆起十三年前的往事。

后来石勇又陪同成思危参观了著名的信用卡管理与数据处理企业“第一数据公司”。当石勇介绍自己及团队在该公司从事的基于大规模数据的信用风险管理建模与分析工作时,成思危对他说:“你应该考虑回国工作,这些科研可以促进中国的金融创新。”

彼时,他们的谈话间,都还没有用到十多年后的今天人尽皆知的一个词——大数据。

先人一步

“今天人人皆谈大数据,却难以想象十年前人们对于这一概念的陌生。”石勇带着几分自豪说,“我们可是从十年前就开始从事数据科学研究了。”

2004年秋,在应中科院领导之邀回国的石勇的主持下,数据挖掘与知识管理中心(筹)在中科院研究生院中关村校区正式成立。

在那之前,数据挖掘与知识管理这两个方向在国际上还是分离的,石勇适时地组织了一次学术会议,邀请了两个领域的专家参加,专家们讨论后得出共识:要将两者结合起来,产生新的创新性科研成果。

考虑到当时公众的认知,在时任中科院院长路甬祥的建议下,中心的名称变成了“数据技术与知识经济研究中心(筹)”。

2006年6月,在该中心(筹)发起组织的一次香山科学会议上,来自世界各地的知名专家一致认为,数据是已知数据分析、数据挖掘、知识发现、知识管理、客户关系管理等的基础。数据本身具有科学的含义和规律,应该将数据研究作为学科来对待,研究数据科学(Data Science)。

从此,以数据与知识为背景的数据科学逐渐得到众多领域的认可。

同年9月,受路甬祥的邀请,成思危将其虚拟经济团队与石勇的团队进行了重组合并。后来,从日本筑波大学回国的石敏俊教授也带领绿色经济团队加入中心。中心再次改名为“中科院虚拟经济与数据科学研究中心”并延续至今。

2007年初,中科院正式批准该中心成立。后来,国际上也陆续成立了有关数据科学的团队。“例如,美国哥伦比亚大学2012年成立数据科学研究所,比我们中心整整晚了5年多。”石勇说。

在海量数据里淘到“金子”

领先的当然不仅仅是时间。

这些年来,虚拟经济与数据科学研究中心为国家宏观经济提供了不少决策依据。中心名誉主任成思危2009年曾撰文《论人民币汇率制度改革的下一步——建立灵活的人民币汇率双层目标区》,而后运用虚拟经济理论,写就《全球金融危机与中国的对策》等报告。在2014年度出版的《人民币国际化》一书中,成思危提出了10年内基本实现人民币国际化的目标和时间表建议。

该中心也通过扎实的研究为地方建言献策。石敏俊团队通过研究,为石羊河流域治理规划调整和完善提出了具体建议。他们还与埃森哲合作创建了埃森哲中科院新资源经济城市指数,为中国城市规划与管理提供了一套全新评估分析体系。

科研成果直接面向相关产业,则是该中心的一大特色。

2006年至2009年,石勇团队与中国人民银行征信局和征信中心合作,在全国个人信用数据库基础上建立了全国个人信用评分系统。这一工作对中国13亿人在商业银行的日常经济活动有重大影响。截至2010年5月31日,该个人征信系统查询次数达6.5亿次。该系统年收费20亿元,实现了真正意义上的基于大数据挖掘的金融工程理论实践。中国人民银行前副行长、现中国驻国际货币基金组织副总裁朱民赞扬这一居民信用评级“已经超过了国际水平”。

目前,石勇团队独创的多目标最优化数据挖掘模型,已成功应用于金融、保险、电商等领域的海量数据或大数据问题,网易、工商银行、中国经融期货交易所、中国投资公司、中国再保险集团、国家审计署、一号店、商务部都成为他们的“客户”。

各个团队的努力,为中心赢得了总数4000多万元的课题经费,而难以置信的是,中心的全职研究人员仅有十来人。

中心的学者也拿下了诸多奖项:成思危于2014年获得复旦管理学终身成就奖;石勇于2009年获得复旦管理学杰出贡献奖和国际多目标决策学会的最高奖项——康托学术奖,2013年还获得教育部自然科学奖一等奖。

中心的毕业生中诞生了两位国家“杰青”和一位教育部长江学者。此外,一位应邀任职于美国加州大学,两位任职于澳大利亚两所大学。除了科研骨干,毕业生中还有包括著名创投平台“36kr”CEO在内的企业精英和创业人才。据石勇介绍,中心招收的研究生分为数学、计算机和管理三个专业,“我希望不同的学科交流碰撞,促成更多新思想的产生”。

一直走下去

2014年8月,石勇作为申请单位代表,参加中科院重点实验室的申评。评议会一开始,他就犯起了嘀咕:60多个候选者角逐30个名额,而他们被安排在学科组第一个答辩,“总觉得评委们会对第一个讲得特别严苛嘛”。

但让石勇惊喜的是,评委们高度评价他们的工作,一致通过了他们的申请。中科院大数据挖掘与知识管理重点实验室得以获批成立,该实验室将依托中科院虚拟经济与数据科学研究中心,国科大管理学院、数学科学学院和计算机与控制学院的科研力量。

作为实验室主任的石勇认为,这一新平台势必会进一步促进中心在相关领域的前沿优势。

出于对他们工作的认可和肯定,美国工程院院刊The Bridge邀请石勇作为主编,在其最新一期冬季期刊上刊登了题为《大数据的全球视野》的学术专辑。石勇邀请了14位来自9个国家和地区的知名学者,就各国大数据的现状、挑战及趋势撰文研讨。

在石勇看来,大数据目前面临不少重大挑战:其一,研究异构数据的不同表现形式之间的逻辑关系,以寻求基于异构数据的“多维数据表”的一般规律;其二,探索大数据复杂性、不确定性特征描述的刻画方法以及大数据的系统建模;其三,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。

面对这些挑战,石勇表示:“我们中心在分析与运用海量数据的科研道路上已经走了十年,未来还会继续走下去。”

关键词: 石勇 大数据