未来我们将数据视为良药预防疾病

您所在的位置：首页 > i医疗 > 互联网医疗 > 未来我们将数据视为良药预防疾病

未来我们将数据视为良药预防疾病

2015-05-18 10:17
作者:数控小V
来源：大数据医疗

我们可以用几个要点形容Amelia Sloan：她喜欢吃自己的脚趾，穿着粉色短裙，不接受记者采访。2013年4月5日下午6点54分，她生于Falls Church, Va，出生时8.2磅。Amelia如期来到了这个世界，但并不是所有的婴儿都如此顺利。实际上，这引出了另外几个数据要点：在美国，每年大约有50万个婴儿早产。这些早产儿出生时还不如一个两升的汽水瓶重。照料这些早产儿，医疗卫生系统每年要花费260亿美元。有超过33万的婴儿活不过第一年，并且成功存活的大部分婴儿终生都伴有健康和认知方面的问题。医生也不知道原因。

为了揭开这一秘密，Amelia出生的医院正在整合另一个数据库：比对健康新生儿和早产儿的数亿个基因分子。总体来说，这些数据在医学家们收集的浩瀚基因数据中的沧海一粟，这种规模在几年前还无法实现。新近的一个医学研究小组认为，通过检验尽可能多的人的全基因组信息，我们不仅可以解决早产儿、癌症、和自闭症等健康问题，还能获得阻止疾病发生的预测能力。

你身体的一切，从重要器官的基本结构和功能到眼睛和皮肤的颜色，都被编码在包含着一串30亿个核苷酸里，共有A、 T、 C、和 G四种核苷酸。基因合成时，核苷酸拼出蓝图——你的DNA——这个蓝图被完整地打包进了你身体里的万亿个细胞里。基因组由DNA和RNA组成，RNA负责解码DNA，然后你的身体据此合成蛋白质和其它分子。基因组根据功能组块依次划分，每一个组块叫做基因。当蓝图写得恰当时，你可能忘记了蓝图的存在：你长出四肢、消化食物、生育健康的婴儿，并做我们人类身体可以做的其它事。但是正如小说草本的印刷错误会混淆意义一样，你的基因组打印错误，不管是由父母遗传而来还是怀孕期间的环境所致，都会导致疾病，像肥胖或者肥胖的倾向。对和Amelia一起工作的科学家来说，找到这些打印错误是治愈的开始。

20年以前，当分子生物学家 Joe Vockley，Amelia基因组的保存者，开始研究基因的时候，科学家像你用闪光灯在一个漆黑的屋子里寻找丢失的袜子一样寻找基因缺陷：照亮那里、照亮这里、直到你找到它。现在ITMI（美国最大的医院网络之一内部的非盈利性组织）的首席科学负责人希望大量的数据能够揭示疾病的起源而无需没完没了地对可疑基因进行击中或未击中的测试。所谓的大数据，就像用探照灯寻找你的袜子。通过寻找正确的基因，临床工作者可以对女性的基因组进行取样，预测她有早产儿的概率，然后采取行动预防。

「我们正从药物实践过渡到药物科学，」Vockley说，「并且我认为基因药物、预测和预防的原则，正在重新定义美国的药物实践。」

但是这样的努力惹火了隐私安全专家们一些人已经在质疑国家安全局收集的那些电话记录和Facebook联系人。他们担忧那样一种未来正在成为现实：获取个人的基因信息对于营销公司、警察局和小偷来说就像谷歌搜索那样触手可及，更不用提那些健康保险公司和雇主们，他们可以利用这些信息来减少自己的商业风险。Vockley 对于一个新基因组做的第一件事就是给它加上如名字一样的标记，但是这并不能保证这些数据能够永远以匿名的状态存在下去。Yaniv Erlich，一个MIT的数据科学家，在1月份通过把匿名的基因组与被试的姓氏和从家谱树网站获取的远亲的部分基因数据联系起来，「重识别」（或者说「黑」)了接近50个人的基因组，这些人均参加了类似Vockley组织的研究。

早产儿只是一个开始。时至今日，ITMI已经从其他病人身上收集了数以百万计的基因组，用以寻找癌症、糖尿病、骨关节炎和心血管疾病的病因。除此之外，还有研究反复收集婴儿出生后的两年内的样本，来研究基因的功能是否在发育早期会发生变化。Vockley估计他的实验室已经收集了全球超过10%的人类基因组数据。等到在建的DNA测序设备完工，他希望到明年年底时该数值能达到15%。

如果Vockley成功了，他将能够改变无数早产儿的生命。但是对Amelia和其他婴儿来说，潜在的收益是否抵消数据公开所带来的风险？

溯数据浪潮而上

我们正在大步走向这样一个未来，海量数据处理不仅能够影响医学研究，还将覆盖社会的方方面面。Viktor Mayer-Sch·nberger是牛津大学互联网研究所的数据学者，他说我们正处在一个深刻转型中，从基于少量信息了解世界的方式向基于无限数据量的持续收集来聚焦新视野的方式转变。

为了强调自己的观点，Mayer-Sch·nberger举了19世纪中期Matthew Fontaine Maury准尉发现古老航海日记的例子。

Maury任职于华盛顿制表与仪器站期间，发现海军基于传统和迷信建立起来的标准航线经常是迂回和没有意义的。沮丧之余，他翻阅了很多长时间被忽略的航海日志，并惊奇地发现记录着在不同时间和地点介绍水流和风向的各种气候状况，并清晰地指出了哪个方位哪个时间点是最有效的航线。在调查的最后，Maury手动标记了120万个数据点，并最终永久地改变了美国的军事航海。

现在，想象一下如果Maury最后标记的不仅仅是航海日记的内容，而是与航海有关的所有数据，包括地球所有地方的风速和水深等，他的结果将更加完美，虽然他可能没有那么多的羽毛笔来记录下这一切。样本大小的统计学概念有所必要，只是因为收集所有的数据，比如，统计选票，在过去是不可能实现的。感谢现代电子存储和处理方式，使这一切的发生变得顺理成章。

三月份发表了一篇叫大数据的详尽论文的Mayer-Sch·nberger说：「收集所有信息的价值在于，你不用论证数据的偏向性或者随机性，也不必论证假设是否成立。」如果你有全部的数据，真相和规律自然显现。

2009年，当H1N1流感横扫全球，谷歌检验了这一理论。他们的分析员发现只使用搜索查询语句就能预测下一次流感的爆发区，得出的结论足够精确，可以用来帮助公共卫生官员预知流行病会从哪里蹦出来。预测的能力最终取决于45个搜索词，比如说「流行性并发症」，「治感冒的方法」，「抗生素药」一类的词开始在谷歌服务器上聚集。总体来说，流行病爆发的地点和搜索此类词语的人所在的地区高度相关。

虽然对普通人来说没什么大惊小怪的，不过是流行性感冒会在许多人搜索「治感冒方法」的地方出现罢了。但是谷歌研究的重大意义在于他们是如何从最常用的5千万搜索词中把这些（和流行性疾病相关的）词找出来的。这不是传统统计上的方法，先假设一些有可能的词，检查相关性，再慢慢构建一个单子。研究者开发一种算法（分步指导计算机筛选数据），使得他们可以同时找出任何课题的所有查询语句，然后找出他们与公共卫生流行病爆发的记录在时间和地点上的相关性。准确的描述这些词，都是自己找到了自己。就好像打开了探照灯，看的一清二楚。

基因时代的数据

Vockley和他的团队注意到了这些。他们细细检查将近1000个新生儿的基因，包括Amelia的。这个团队在 Inova’s Fairfax医院的砖砌的曲折蜿蜒的小路尽头，在Falls Church市（弗吉尼亚州城市）和华盛顿特区郊区的交界处。在这里医生们治疗癌症，替换关节，移植心脏，去年，Dick Cheney的心脏移植就是在这里做的。（译者注：Dick Cheney，乔治·W·布什一任的副总统）

Vockley在像这样的医院附近长大。他童年最早的记忆就是在匹兹堡郊区探望那些数次手术摘除有可能癌变的骨质增生的亲戚们，这种骨质增生是由一种叫多发性软骨外骨骨疣的基因缺陷导致的。虽然Vockley没有被遗传到这种疾病，但是这种病已经传了好几代。就算是在儿时，Vockley也明白家族的不幸是由于一种细胞深处的缺陷导致的。

他说，「这算是代价惨重的了解了基因」。

这种经历燃起了他心中研究的火种，后来他成为博士后研究员，并在加州大学洛杉矶分校当了一名临床遗传学的驻院医生。早在1990年代，他在SmithKline Beecham（现在的GlaxoSmithKline，世界上收入第十大的制药巨人）拿到了一份工作，他探索了与癌症相关基因的部分基因组。第一组完整的人类基因组直到2003年才被测序出，但是Vockley已经明白了这些数据的潜力。他得到的数据越多，他的发现就越多。

当他2010年到Inova的时候，完整基因组测序技术真正来临了。把病人的血样转换成数据档案，实验室的技术员先剔除白细胞，然后用化学方法将除了DNA和RNA以外的所有东西溶解掉，如此只剩基因组本身。他们把基因组切成几块，然后在每个尾部黏上实验室生成的非人类DNA。这些DNA被固定在玻璃皿上的互补DNA上，以确保样本的稳定。然后，他们使用聚合酶，也就是在细胞分裂时复制基因组的酶，复制出一个基因。这种聚合酶被加工成每复制一个核甘酸就会用荧光标注，这样每个新的A、T、C和G都被荧光标注了。用一个超高分辩率的相机提取颜色，一个基因组数据就诞生了。这个步骤在每个样本上会重复多达30次来纠错。

当Vockley在SmithKline Beecham时，只测序一万个核苷酸——只有全部基因组的0.00033%——要花费18小时。如今，测序机在相同时间内可以测出450亿个核苷酸（大概是一个样本所需要的一半，这要求重复试验），得益于工程的进展，人们有能力同时处理多个样本。由于效率提高了，成本按数量级下降：在2001年测序一个完整的人类基因组要花费1亿美元，但如今报价要少于1万美元。

有了技术之后，Vockley 在 Inova发现了一个热衷于用大数据分析医疗问题的科学家团体。他也发现了那里每年都有大约1万名新生儿出生，使那的新生儿设施成为国家最繁忙的设施之一，这也是他一直等待的机会。在Inova的州籍，弗吉尼亚州，每年大约有12%的婴儿早产，近似全国平均水平。早产几十年来都是个棘手的病症，Vockley说；尽管产前保健有了巨大的提升，但事故发生率近30年来纹丝未动。

他说：「人们所做的一切，都不起作用。所以问题是，我们能不能在基因组的领域想出办法来改变这个结果？」

预防早产儿

到2010年，Vockley和他的团队已经制定了一个发掘早产基因根基的计划。他将收集数以千计的来自妈妈、爸爸和婴儿的基因组，使用与谷歌流感趋势预测搜索模式相同的方法：一次检查所有的数据来寻找模式。

两年前，他的团队开始在医院的妇产科病房寻找愿意透露她们自己和孩子的基因组的孕妇。技术人员收集了参与的母亲和父亲和刚出生一两天的婴儿的血液和唾液样本，利用这些他们可以测序基因组。Vockley目前正在研究的基因组有2710个，包括妈妈们和爸爸们各881个，婴儿948个，而且正在收集任何有意愿前来的早产儿的样本。光是DNA就包含了惊人的数据：30亿个核苷酸的2710倍相当于8.1万亿A、C、T、和G。

比较任何两个人，他们绝大多数的DNA序列都是相同的，毕竟我们是同一物种。但30亿DNA链中约有1万左右的多链DNA因人而异，主要是基于血统（举个例子来自纽约州北部的两个白人之间的相同点比他们与一个来自津巴布韦的女人之间的相同点多）。这些相异的部分被称为「变体」，Vockley的目标是梳理出少数的致病基因和多数的良性基因。

为此，他雇佣了一个由40名生物信息学家组成的团队，从把关于早产研究中的每个新基因分成两个数字桶：「病变」（前期），和「无病」（全期）开始，通过训练计算机编程和生物学来专门培育软件工程师。然后他们的工作是从惊人的基因数据堆中找到与疾病（而不是健康的）人群紧密相连的变种，消除它们。

他们从编写一个算法开始，该算法把2710个基因组一个放在另一个上面这样堆栈起来，同时观察他们。这样使得计算机能够过滤掉每个人的相同序列。这是一个大数据集发挥作用的地方：如果只有少量基因组，他们之间的任何相似性或差异性可能是随机的产物。但如果刚好相同的序列出现在所有的2710个基因组中，那更大的可能性就是，这是所有人类共同的，因此不是疾病的因素。

下一步就是过滤掉因人种不同带来的差异，比如巴黎人种和津巴布韦人种之间的不同。这里，Vockley利用特区城市人口的种族多样性来达成目的。在早产儿的研究中，受试者来自77个不同国家，这样就可能找出和过滤掉许多因人种不同带来的差异。

Vockley说道，突然之间，差异数量级从10000变成了100，前者甚至可以和受试者之间任何差别相关，而后者极有可能只和疾病本身相关。

同时，通过不同算法搜索基因组来获得各样本的共性，找出早产儿组拥有而足月儿组没有的变量。锁定那些直接引起早产的变量只是挑战的一部分，Vockley同时希望找到和疾病相关的易感变量，易感变量并不直接导致早产，却可以做为有必要对孕妇实施特殊护理的预警标志。总的来说，最终筛选出了20个基因变量，Vockley相信这些变量对早产有影响，他准备将这一结论在今年冬天的出版的 Nature Genetics杂志上发表。这些变量可以影响生理指标，比如胎盘的发育、母亲子宫颈的长度以及母亲和胎儿之间生化指标的平衡。如果一个母亲经过测试显示任意基因组合呈阳性，就可以预警她罹患早产的高风险性。

今天的实践工作主要还在依靠猜测，而这种强大的能力使预测取得巨大进步成为可能。医生可以根据资料和病史制定个性化的治疗方案，这将大大提高安全成功分娩的几率。根据这些研究结果可以开发新药提前纠正失衡，助产士可以为预防可能出现的并发症做好准备，而不是在最后时刻疲于应付。

Vockley说道，我们现在拥有活性药物，生了病就给药治病，而大数据的目标是预防生病。

寻找癌症的线索

世界上最先进的数据挖掘项目之一以同样的方式被用来对癌症进行分析。Ilya Shmulevich是一个卓越的基因组学家，他负责一个癌症基因组数据分析中心，这一机构隶属于美国国家卫生中心癌症基因组图谱部门。他说这一项目是被迫的，它发端于癌症研究人员之间彼此分享挫败经历，比如数据的缺乏，一次只能研究一种癌症缺陷基因，甚至有时候只是猜测疾病病因是许多同时发生的基因组故障。

他说，为了利用这一系统找到攻克癌症的突破口，就不得不测量关于这一系统的一切数据。

过去几年当中，美国国家卫生中心的研究团队从世界各国收集了20多种不同癌症类型共计10000多名癌症患者完整的基因组数据。为了弄清楚到底是什么引起了疾病，科学家同时对癌症患者的健康细胞及肿瘤细胞进行了测序，目前结果已经出来。十月中旬，华盛顿大学医学院和癌症基因组图谱数据中心的科学家一起发现了引起12种主要癌症类型基因突变的共127个基因组。科学家根据这些发现搭建了通过单一测试就能早期确诊肿瘤的平台。这些研究同样为针对肿瘤细胞的靶向药物的研制铺平了道路，靶向药物通过辨别单一的分子特征完成对肿瘤细胞的识别。

而且，按顺序排列的基因，一生都保持不变，它只是预测和预防基因疾病的第一步。同样重要的是，RNA 分子读取基因的 DNA的蓝图，创建有功能的蛋白质，这些蛋白质可以做从形成组织到对抗细菌性疾病的任何事情。随着时间的过去，这些转化的分子发生变化以响应环境条件，比如饮食和压力。现在抽样同一个人，然后一年以后就会显示出一个迥然不同的图景。Shmulevich认为把自身做比较是有巨大的潜力的，当你从健康的状态到疾病的状态。大基因组数据可以显示出细胞行为前所未有的形式，就像大规模的交通数据可以帮助你的GPS导航仪找到回家最快捷的路线。运用这些数据，在任何症状出现之前医生就可以识别你得了癌症。

大数据的未来

数据狂热爱好者正如Shmulevich所说的，我们正在接近一个未来，获得走进一家诊所的所有病人的全部基因组信息将会便宜、快速、简单。一群生物技术创业公司正在奔向第一个100美元的基因组，这也只不过是几年后的时间。对于Vockley来讲，这将为医生战胜疾病提供前所未有的战略优势，一个在黑暗中消除任何需要而试一试。而且不像小样本统计那样细致的筛选数据来回答一个预定义的问题，大规模的数据收集在它所能揭示方面面临着无限制。现在由国际专业人才管理学会（ITMI）所收集的相同的基因组数据和癌症基因组图谱可以被用来研究其它疾病，比如糖尿病或肥胖症。

但是大数据的保质期也暴露了它不可预知的危险，肆无忌惮的玩儿家可以在你生病之前就用它来提高医疗保险费，在你曾拖欠贷款之前否认信贷，或者在Mayer-Sch?nberger个人最喜欢的世界末日场景中，在他们犯罪之前就惩罚“不法分子”，所有这些都基于你的大数据资料。想想《少数派报告》（Minority Report），只是通过纯粹的数据发布预言来代替捉摸不定漂浮着的有洞察力的人。换句话说，从本质上来讲，真正的危险不是美国国家安全局（NSA ）将会知道你在工作中给你的男朋友打长途电话，而是你可能永远都不会被雇佣，因为持有你的数据资料的人很可能打过这样的电话。

把基因组数据添加到这样的混合物中，它是有关你增加的风险，有一天它可以用于一个目的，而不是原始研究。用大数据，「这并不是说我们作为人类必然要变得更赤裸和受监控」，Mayer-Sch?nberger 说。「我们作为一个人类社会变得更加赤裸。社会中的交互、动态将会变得更加暴露。」

在她人生的第二天， Amelia Sloan 就成为大数据时代的一个公民。还在医院的时候，她的妈妈Holly自愿放弃了血样和唾液，以便做早产研究。Holly有好的理由来签约，她自己在这家医院里做了5年的分娩护理，她为几十个早产儿做准备，并且她也经常看到本应该是全家欢乐的时刻变成了葬礼。

「一开始它是如此的害怕」，她说，「因为他们出来是那么细小，周围都是设备和人，还有你会思考『在那个世界小婴儿是如何做到的？』」

Holly 想停止对于这个问题的自问。因此，她、她的小婴儿，和一些家庭成员提供了他们的基因组让 Vockley去研究， Vockley承诺数据将以匿名方式共享给其他研究员。但是这可能只是理想状态。实际上，由于窥探，要保护你的基因组已经太晚了。正如 MIT’s Erlich 展现的，当这些数据被所有其他无关他们的数据目录替代时，参与者可能会得知他们的基因组匿名之后这种舒适感将会减弱。

Erlich开始了他的事业生涯，通过银行侵入他们的系统，寻找安全漏洞。这个经历让他迷惑于数据集如何能真正的安全，因此去年年底，他决定测试锁住的基因组数据。他从一个公众研究数据库拿了10个完整的，可能匿名的基因组，并对提交了Y染色体的基因片段的人进行匹配，沿用他们的姓氏，重建了一个盈利的遗传谱系的网站。由于Y染色体从父亲给儿子传送就像姓氏一样遗传，做一个匹配双方不需要有相同的个体——它足以推断匿名基因组的来源，然后缩小到一个个体的使用年龄和状态—在调查数据库中考虑识别住处信息是不合法的。 Erlich 重建了近乎50种身份，这种进步，他说：「比所估计的更加容易。」

通过把调查基因组和其他基因组数据来源结合，相似的结果将能被实现，像另一个医学研究，或者为一个警方调查或者生育测试做DNA收集。除此之外，任何数量的组合是可能的：基因组数据能够被结合，说，亚马逊的购买习惯，用一个确定的基因档案或疾病为人们策划营销活动。

所有需要的意外或者故意释放基因组数据，是通过混乱（在2009年，Netflix面临一个50亿美元的诉讼，当这个诉讼发布匿名电影评论的数据时，如此快速地被德克萨斯大学的两名研究人员识别）或者是一个维基解密风格的义务警员的数据倾卸。由于大量基因组数据被家庭成员共享，因此你的姐妹参加了一个泄露基因组研究的也就会揭露关于你的秘密。

在大数据时代，Mayer-Sch?nberger 说：「如果一个人选择让他的基因排序，其实他也是在吻合他所有亲戚的基因信息，」对于每个捐赠他们基因给科学的人，或者是代表他们的新生儿捐赠的，这将出现一个道德缺口.

Vockley 和Shmulevich都指出健康保险可携性与责任法案 (HIPAA)（由比尔 · 克林顿总统于1996年签署成为法律作为医疗隐私的标准）能够作为足够的保障，防止医疗数据共享。但一些信息及隐私法律专家，像是纽约大学法律学院的Katherine J. Strandburg认为，大数据，从基因组到Facebook，需要一种新的法律保障，该保障超出现今数据搜集时代能被制定出的任何保障措施（比如传统的当你签署像是Email供应商的阅读-同意合同时就表示你同意），相反，明确禁止了未来的滥用。

她说：「人们不知道收集到的关于他们的信息将被用往何处，所以我们真的需要更多的直接管制，比如某种做法，某些信息的使用时不被允许的。」

奥巴马总统于2009年创立了生物伦理问题研究总统理事会（旨在向他提供因生物医药技术引起伦理问题的建议），该律师会在去年秋天向总统发送一条备忘录，敦促联邦及各州建立法律，扩大基因数据的隐私保护，而不论数据的来源。也许就是因为上述原因。对与Holly and Amelia，幸运的是，在这条战线上，更加进步的法律之一基因组信息平等法（GINA，Genome Information Nondiscrimination Act ），由乔治布什总统于2008年签署。该法律明确禁止了保险公司或雇主根据基因信息的歧视行为。和HIPAA不同的是，GINA建立于一种假设之上，即所有的数据都在公共领域，它禁止的是滥用这些数据，而不是共享这些数据。

对于Vockley来说，基因组医疗的承诺胜过了风险。他看到了一个不远的未来，在那里，基因数据能让医生将更多的时间放在预防你可能得的病上，而不是在你得病之后打败它。他好奇「如果人人都有预测力，而不是生病，医院会是什么样呢？」

由于技术总是超出调控，所以共享多少数据仍然是你或者你妈妈才能决定的事。

Holly Sloan说到：「我想能得到我的基因图谱是一件很酷的事。20年后再问我同样的问题，看我是否仍这么认为。」

【责任编辑：孙杨 TEL：（010）68476606】

【收藏本页】【复制链接】【打印】

标签：大数据基因时代

分享到：