Nature:一大票科技公司正在将我们的健康数据占为己有,这很糟!

2016-07-27 06:00 · 李华芸

互联网公司的资源可以帮助研究人员快速完成大规模的科学研究,但是其背后存在一个大问题:上到像谷歌这样的科技巨头,下到像23andMe面对消费者群体进行基因测序的规模稍小的公司,把持着健康数据的所有权,或者更直白地说,他们控制着分析人类健康数据的方法和工具,并将其运用到特定的服务中。


过去几年,谷歌、苹果、微软、IBM等科技巨头在生物医学研究领域「招兵买马」,聘请了许多生物医疗界的领导者,想要在医学领域掀起新的变革。

2015年9月,Tom Insel宣布他辞去在美国国家心理健康研究所领导者的职位,加入「谷歌生命科学」(Google Life Sciences)。三个月后,Michael McConnell放弃了加利福尼亚斯坦福大学的主要心血管研究项目,追随Tom Insel的脚步加入了谷歌。就在上个月,非盈利组织Sage Bionetworks的联合创始人和前任总裁,一直致力于推动开放性医疗研究的Stephen Friend也宣布加入苹果公司。

从许多方面来说,医学科学家向科技公司迁徙,专注于收集,分析和存储信息的现象多少有些姗姗来迟。由于获得有关健康和疾病的数据的成本较高、困难较大,进行临床或人口研究的科学家很少能够跟踪足够数量的患者,并密切进行观察研究,因此很难得出精确度较高的结果。鉴于各种局限性,又有哪位科学家不想接触到互联网公司拥有的大规模、多维度的健康数据,更何况那里还有工程师可以帮助建立数据采集传感器和算法进行数据分析。总之,互联网公司的资源可以帮助研究人员快速完成大规模的科学研究。

然而,这个现象的背后也有一个大问题:上到像谷歌这样的科技巨头,下到像23andMe面对消费者群体进行基因测序的规模稍小的公司,把持着健康数据的所有权,或者更直白地说,他们控制着分析人类健康数据的方法和工具,并将其运用到特定的服务中。


用户数据分析在互联网触及的其他领域已经造就了一个新词汇:「黑盒子」社会。在线广告商会根据人们的年龄、位置、支付和浏览习惯来为其「量身制定」广告。某些零售服务被设定为优先提供给特定群体。同时,执法者也在使用一些不会公开的数据分析工具帮助做一些法律裁决,这一切都要归功于某些机构一直在秘密收集和处理个人数据。

如果未公开的算法决策开始用于健康数据,那么前文描述的「黑盒子」效应将会加剧社会偏见。关键的是,如果用户没有获得知晓、分享他们信息的权利,那么他们不会知道自己是否受到了不正确、或者是歧视性的健康描述,更别提去反抗这种行为了。并且,大多数的研究人员也没有渠道去接触到这些健康数据,更别说从中进行观察研究了。

信息流

我们认为,大量的健康专家涌入硅谷可能为生物研究和医疗护理行业带来根本性的转变。

在英国、瑞典、挪威和爱沙尼亚等国家,由于政府和民间组织的持续推动,他们已经实现了电子健康记录的规范化。在美国,未来五年内全面使用电子健康记录的希望是非常大的。同时,机器学习领域的进步拓展了医疗系统之外的可用电子健康数据的边界。比起常规的临床观察,那种数据更适合机器学习进行处理。

在此之前,想要获得健康数据要依赖于高技能的专业人员,他们通常在医院病房或诊所进行一年一次或两次的观测记录,观察数量从几十到几百个不等。此外,研究人员还要从很难获得,非标准化的医疗记录中艰难地提取出相关数据。但在今天,因为智能手机应用的出现–比如说Apple去年推出的软件架构–以及可以监测步数,位置,心跳,甚至大脑活动的可穿戴式设备的出现,可以让研究人员对成千上万的人们进行实时监测,从中获得海量的数据,而观测可以精确到每一天,甚至每一分钟。

人们的搜索行为也包含了健康信息。2015年2月,谷歌和一家总部设在明尼苏达州的Mayo诊所(Mayo Clinic)合作。合作的目的是要弄清有关健康的信息,比如说最常见腰痛的原因。谷歌的团队正在利用搜索引擎的智能算法Knowledge Graph来检验健康信息–用户在搜索症状或身体状况时能获得相关性更高、更加准确的结果。谷歌提供的这种服务可以让很多疾病省去去看医生的麻烦。与此同时,这种服务强化了谷歌的搜索引擎的能力,并让谷歌的健康信息检索的能力达到了前所未有的水平–但也仅限于谷歌自己能力的提升。根据谷歌统计,每秒钟会产生约40000个搜索,其中2000个是与健康相关的。

与此同时,机器学习能让研究者从拍字节(Petabytes)的数据中挖掘数据的意义、模式和联系。比如说,IBM的沃森平台可以利用自然语言和机器学习处理非结构化数据。自去年四月份起,IBM利用沃森健康的云平台建立了「健康知识专家」:在沃森云平台上储存数据的用户可以利用IBM的算法来分析数据。IBM的沃森已经和位于休斯顿的德州大学安德森癌症中心(University of Texas MD Anderson Cancer Center)进行合作,来应对各种复杂的疾病问题–具体来说,就是利用癌细胞的基因组信息来为个体提供精准医疗。


2011年,柏林爆发了对个人数据的私有化的抗议

即使智能手机和可穿戴设备目前只能对健康状况进行初步的测量,但它们产生的结果要比这几十年来医学设备能提供的结果要好的多。举个例子,2014年,一名患有1型糖尿病的女性通过连接一个微小的处理器、一个胰岛素泵、还有一个能够进行持续血糖检测的设备,就能够自动调节血糖水平。对小社区的患者来说,推广这种「自制系统」所取得的效果要远远比传统医疗设备干预的效果好得多。

对于今天来说,无论是大公司还是小公司,他们都想要从廉价的用户健康数据中寻求巨额的利润。大约10年前,有零零散散的创业公司低价收购人们的基因组数据和其他健康数据,然后将这些数据贩卖给制药公司和其他客户。但是在2016年,每家科技公司–苹果、谷歌、IBM、Facebook,甚至是Uber–都表明自己要进入「数字医疗」的市场。

数据的闭环

平心而论,利用管理上的进步和分析手段的提高,来从根本上变革医疗护理行业是许多企业进军医疗领域的主要动力。但是在目前,早期的竞争者们把信息隔离在一个闭环的系统(closed loopsystems)之中。

位于都柏林的美敦力公司(Medtronic)在2013年推出一款可穿戴设备Enlite,它能够监测到患者的血糖水平,并在血糖下降时向患者血液中输送胰岛素。对于患者来说,他们可以在任何时刻监测自己的血糖水平,但是却无法访问监测的总数据。对于美敦力公司以外的人员,无论患者或研究人员,都没有办法接触到美敦力公司庞大的测量数据。美敦力公司其他设备,情况也是一样。事实上,美敦力拒绝向患者提供其自身的心脏数据。

即使企业愿意给用户提供他们的汇总数据,他们也会限制用户分享自己数据的权利。23andMe,是目前全世界拥有最大的人类基因组数据库公司,它允许用户查看和下载自己单个DNA变体,并允许将其分享给某些上市公司。但对于患者来说,如果想要更好地利用自身的数据,就必须拥有把数据发送给自己的健康顾问、遗传咨询或者其他的分析师的权利。

长期以来,制药公司一直控制着大量很难获得的数据,比如说在临床试验中特定化学物质对某些血液测量影响的数据。但是制药公司缺少研究对象在实验外的纵向健康数据,并且他们无法对比分析同一个实验对象在不同实验中的状态。新进入医疗领域的企业们,不受原有的电子健康记录平台的束缚,纷纷参与到了积累数据的竞赛中,并不断优化自己的系统,使其可以更精确的预测用户行为。

据eMarketer今年1月的报告称:那种能够接入互联网、收集分析健康和健身数据、连接其他医疗设备、简化病人护理和医学研究的可穿戴设备,预计在2020年市场规模会超过1630亿美元。然而,出现这种大规模的增长的原因,并不是企业为了谋求人类长远利益最大化的角度出发的。

企业的专有算法可能会复制、甚至加重社会偏见和固有的结构问题。尽管谷歌的程序员在不断努力,但是谷歌现有的广告算法推向女性用户的求职广告所提供的薪水要低于男性。今年5月,ProPublica的一项调查表明:如果被告者是一名黑人,那么美国执法机构所使用的算法判定被告者有罪的可能性更大。亚马逊的「人口盲」(demographically blind)算法得出:在美国一些城市,亚马逊「当天送达」区域的黑人的数量要比白人的数量少了一半。

我们认为在医疗基于封闭数据和封闭算法的商业模式在一定程度上会阻碍科学的进步–闭环状态下不能用多种方式去检验和解释数据。长期来说,这种商业模式会增加社会现有的不公平和不公正。在未来,不难想象,企业可能在患者不知情的情况下交易用户的数据分析结果,而且企业的行为举动往往很难被患者察觉,因此患者很难去反抗企业做出的决定。企业将在医疗领域取得的认知进步应用于给人们推送医疗相关的服务–不管推送的服务对人们的健康是好是坏。

为了更好,而不是更差

我们并不是要妖魔化科技公司。事实上,封闭系统的确比开放系统拥有一些短期优势。比如说,封闭系统可以统一规范数据的格式和标准,因此处理的速度更快、一致性更高。但是通过逐层开放新型的健康研究基础设施,那么私人资本将会更好地公共利益服务(原始数据是第一层,分析数据是第二层,在此基础上为病患提供治疗和服务是第三层)。

我们认为,利用传感器或其他分析方法将原来杂乱的数据转换为临床上可用的信息是有利于社会福祉的。在未来,那种利用用户个人信息来谋求利润的商业模式很可能被关闭–转变为像谷歌地图、苹果地图、Waze地图那种基于政府提供的地理信息而提供地图服务的模式。在这种情况下,私人资本会寻求最利于病患的治疗体验,而不是寻求医疗领域的商业机密。

理论上讲,严格的政府监管可以阻止收集、分析个人健康数据成为一个高利润的商业模式。欧盟已通过全面的法律规定以保护人们的信息安全,防止个人信息被用于商业或其他目的。但是在美国,未来2-3年内政府通过立法来保护人们的信息安全的可能性很小。

对于一些科技巨头来说,他们拥有的权力已经能和一些小国家相媲美:他们拥有丰富的「自然资源」(数据和计算能力),在全世界寻求利润。就以美国5家科技巨头来说:苹果(Apple)、微软(Microsoft)、Alphabet(谷歌的母公司)、思科(Cisco Systems)、甲骨文(Oracle),这5家公司在2015年的现金储备之和为5040亿美元,其中绝大部分储备在海外,其目的是为了避免税收和监管。即使是美国政府想要干预,但是政府永远跟不上科技巨头们技术更新和商业模式转变的速度。

我们认为,阻止封闭的商业模式垄断市场的最有效办法就是「开源」。在20世纪90年代末,IBM是当时软件市场的巨头,它放弃了专有的Web服务器软件而去围绕开源软件发展业务。一旦用户意识到开源的Apache Web服务器和Linux操作系统提供了一个可行的替代商业软件,IBM便开始销售支持和配置服务。同一时间,网景(Netscape)浏览器源代码发布后,当时浏览器市场上涌现了大量的创新者,有力地阻止了微软的Internet Explorer垄断市场。这两个例子都说明:即使是几百人的小社区也能撬动世界级别的巨头公司。

政府的资金支持可以有力地推动健康数据的开放。2000年,由政府主导的人类基因组计划(Human Genome Project)宣布成立后,私人基因组测序公司Celera便停止了向研究者收取查看数据的费用,将自己所拥有的数据信息存储在公共数据库「GenBank」里面,随后将业务的重心转移到疾病治疗方面。但是目前来说,用在公共健康项目上的金额–比如说奥巴马政府推出的利用病患的基因组信息和生理学数据来治病的精准医疗计划–远远比不上商业公司所能提供的投资。就23andMe公司来说,它最新的一轮融资为1亿5000万美元,是整个联邦政府投给精准医疗计划总金额的70%。

案例研究


在Sage Bionetworks,我们对不同疾病进行四组临床试验,其中就包括帕金森综综合症。我们还为患者提供了在线上传数据的渠道,以及为后续三个深入研究提供数据的入口(后续研究包括糖尿病,哮喘和心脏病)。自2015年3月份起,有超过了9万人参加了这7个试验。参加者可以查看他们自身的数据、并下载数据的完整副本。同时,他们也拥有将自身的数据捐献给「合格研究者」的权利。

在我们的研究中,超过75%的参与者选择共享自己的数据——大多数人出于想要帮助与自己相似的患者。我们的调查结果是有偏见的,因为我们的调查对象都是那些已经参与过临床研究的人。但是2015年,国家公共广播电台进行了一个规模更大的类似研究,结果显示53%的受访者表示愿意与专业医疗人员分享他们的匿名数据。实际上,即使只有5%的美国人口捐赠了他们的健康数据,效果都将会是革命性的。毕竟,几百人的开源软件的小社区都能够撬动世界巨头公司,给计算产业带了翻天覆地的变化。

因此,我们所要进行的改变不仅要让人们知晓他们的数据在现在是使用的,而且还要让他们知道数据在未来是如何使用的。上世纪60年代和70年代的美国出现了很多小团体,他们领导了许多开创性的联合倡议。比如说环境保护局(the Environmental Protection Agency)的创立和空气洁净条例(Clean Air Act)的颁布。同样,在健康数据开放方面,最先开始捐赠自己数据的将会是那些主动性很高、奉献精神较高的人。比如说在量化自我(Quantified Self)的社区中,早期的倡议者可以通过传达更清晰的信息、强调什么是重要的来帮助建立新的标准。

开放并不是一个简单的目标。系统的许多细节都要设计,不但要保护隐私安全,还要减轻某些见解成为公共知识而造成的伤害,以及降低人们退出的可能性。但是如果公民力量成为推动开放医疗数据的主要动力,那么就被颠覆的领域就不仅仅局限于医疗护理行业了。

一直以来,全世界的人们在医疗护理领域都处于非常被动的位置——一味地听从供应商的指示。全球监测方案的跟踪研究表明:大多数人认为企业占有、控制个人信息的行为是不符合互联网时代精神相对立的。

在过去的十年里,社交媒体的出现改变了全世界,世界上每个人都可以利用互联网贡献自己的知识和见解。同样,在医疗行业可以根据成千上万人的就医经历来建立一个全球范围的医疗知识网络,在此基础上每位患者都可以找到最佳的治疗方案。然而,只有当我们每个人为我们的健康、疾病、还有产生的信息主动承担责任时,医疗知识网络才有可能成为现实。一旦有商业机构想要占有个人数据时,健康数据应该是我们坚守的底线。