- 2014-08-08 15:08
- 作者:胡珉琦
- 来源:中国科学报
医疗与健康应该放在同样重要的位置。事实上,疾病防治关口前移,能大大节省对医疗资源的消耗。数据分析有助于对老百姓进行健康教育,提升疾病预防效果。尽管在医疗领域,国内还处于数据原始积累阶段,但尝试着用数据挖掘开发项目和产品来占领先机也未尝不可。
2009年,谷歌曾因成功预测冬季流感的传播,从而刮起了一阵大数据变革公共卫生的浪潮。近来,谷歌公布消息,Google X最新孵化了一个名为Baseline的医疗健康项目,用大数据来预防癌症。该项目被认为可能是谷歌有史以来最具野心,也是最困难的项目。
收集健康数据预防疾病
根据《华尔街日报》的报道,谷歌认为,多数已经发现的生物标签都与晚期疾病有关,因为这种研究普遍集中于病人。但是,利用现有数据尽早判断疾病的效果不佳。而Baseline旨在帮助研究人员更早地发现心脏病和癌症的各种迹象,进而推广预防措施,并不仅仅把精力放在治疗上。
为了完成这一项目,谷歌将从175人那里匿名搜集基因和分子信息,之后还会再搜集数千人的相关数据。目的在于全面描绘健康人的身体究竟应该是何模样。
收集的内容包括尿液、血液、唾液和眼泪等体液,数据将包括参与者的整个基因组、父母的遗传史信息,以及他们如何代谢食物、营养和药物,在压力之下他们心跳速度,化学反应如何改变他们的基因行为。这项研究还将创建一个参与者组织样本的知识库。
之后,谷歌便会利用其庞大的计算能力来寻找这些信息中隐藏的“生物标记”,从而帮助医疗研究人员提前发现疾病。
例如,该研究可能会发现一些能够帮助人们分解高脂肪食物的生物标记。拥有这些生物标记的人,可以将患上高胆固醇和心脏病的时间延后,而没有这类生物标记的人则可能更早患上心脏病。一旦Baseline发现了这一标记后,研究人员便可通过检查了解哪些人缺乏这类标记,并帮助他们纠正习惯,或者开发出新的治疗方法,帮助其更好地分解高脂肪食物。
如何定义“健康”
在医疗领域,主流的科学研究旨在精确定位与某种疾病相对应的生物标记,从而作为疾病预测、诊断的依据。在中国科学院北京基因组研究所副研究员聂凌虎看来,Baseline放弃了传统医学精确“打击”的思路,而是利用海量储存和计算能力对人体内所有的基因和分子信息进行轰炸式搜索。依据数据统计,得到健康人群的人体结构数据,进而找出比对个体所有分子层面的异常。
他告诉《中国科学报》记者,与已知疾病相关的生物标记只是异常中的一小部分,如果将关注的异常参数范围扩大,或许就可以找到病灶出现前的蛛丝马迹。
“过去,医学往往关注的是疾病患者为什么患病,而谷歌想做的是,搞清楚健康人群究竟是如何保持健康的,并想方设法让那些非健康状态的人群(不一定是疾病患者)调整到健康状态。”
聂凌虎认为,谷歌有全球最大的计算机和数据中心,可以迅速提供搜索结果、运行大量数据的服务,庞大的数据网络有能力用于存储和计算医疗信息,可以为该项目运行提供支持。
目前,Baseline项目研究还处于探索阶段,但它首先面临如何定义“健康”的问题。
“一个唐氏综合征患儿的母亲可能认为她的孩子是健康的,一个人致残后可能会适应生活并重新定义健康。Baseline定义健康也会面临同样的问题。目前与Baseline相关的报道尚没有足够信息显示谷歌是如何定义健康的。”芝加哥大学卫生促进研究中心博士后、卫生经济学者陈茁在接受《中国科学报》记者采访时表示。
“另一个问题是数据的代表性和不同人群的差异。”陈茁说道,“几千个参试个体难以代表所有人群,特别是不同人群对环境、气候有着不同的生理上的适应反应。比如藏区原住民携带EPAS1基因的一种变异从而能够应对相对低氧的环境;镰刀型红血球疾病的出现在某种程度上是人群对疟疾的应对。”
此外,他还表示,基因、分子层面的缺陷只是疾病发生的一部分,行为和环境因素对健康的影响也相当重要。当下人体各项参数正常,并不代表未来一定不会得病,反之亦然。因此,当前,疾病预测、预防还无法做到准确可靠。
“谷歌流感趋势”缺陷
事实上,谷歌在医疗大数据预测方面的尝试早在2009年就开始了,“谷歌流感趋势”项目准确预测了2009年的流感流行,反响巨大。但人们有所不知的是,“谷歌流感趋势”之后的表现并不尽如人意。在2011 年至2013 年间,该项目多数高估了类流感发病率。陈茁曾撰文分析了其中的原因。
该项目背后的原理似乎很简单:如果某地流感开始流行,那么相关疾病的谷歌搜索就会增多。但现实远比原理复杂。
陈茁解释,谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。但在现实中,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。如果只用“谷歌流感趋势”预测流感发病率就会存在问题。
他认为“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性;其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。
隐私安全风险
尽管这些项目还存在缺陷,陈茁认为这并不足以否定大数据对国民健康的潜在贡献。美国卡罗来那医疗系统(Carolinas Healthcare System)已经尝试用信用卡数据辅助其他数据预测急诊使用概率,以及用临床数据预测再入院率。“只是,任何新生事物都有一个发展的过程。大数据预测功能在医疗上的价值想要达到人们理想中的要求恐怕还需假以时日。”
但也有观点指出,目前国内医疗问题还没有解决,谈健康显得有点“奢侈”,还是应该把焦点放在医疗上。
聂凌虎并不这么认为。“医疗与健康应该放在同样重要的位置。事实上,疾病防治关口前移,能大大节省对医疗资源的消耗。”聂凌虎说,“数据分析有助于对老百姓进行健康教育,提升疾病预防效果。”
陈茁也表示,虽然在医疗领域国内还处于数据原始积累阶段,但尝试着用数据挖掘开发项目和产品来占领先机也未尝不可,当然,具体项目需要具体评估。不仅如此,他还提到,政府和行业组织在标准化方面应该先行一步,吸收国外的经验和教训,以免将来面临多个数据标准互不兼容的问题。
此外,陈茁强调,在医疗大数据领域需要格外注意隐私及附带的数据安全问题。
谷歌掌握上千人的身体结构,小到细胞内部的分子,未来,这些数据对于保险公司而言非常宝贵,它们可以利用这些数据降低风险。
对此,谷歌表示,Baseline采用的是匿名方式,搜集的数据也仅限于医疗目的。这些数据不会与保险公司分享。Baseline还将由机构审查委员会进行监测,监督所有涉及人类的医学研究行为。一旦开启全面研究,委员会将由杜克大学和斯坦福大学医学院组成,监控如何使用这些信息。
“即便如谷歌所言,项目参与人群的社会安全号和其他可能确定个人身份的信息不会被传送到谷歌,Baseline测量的大量的生物标记也使确定个人身份成为可能。”在陈茁看来,为保证个人身份安全,对数据安全也将提出更高要求。
- 分享到: