您所在的位置:首页 > i医疗 > 医疗信息化 >  雷健波:医疗卫生大数据-从理论到实践
雷健波:医疗卫生大数据-从理论到实践
  • 2013-07-31 11:29
  • 作者:佚名
  • 来源:CIO时代

以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于2013年7月21日在北京大学英杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学CIO班教务办公室主办,北达软协办,CIO时代网承办。各企事业单位信息化负责人、北大CIO班学员及有关媒体代表200多人荟萃于此,对大数据的众多议题进行了热烈讨论。

\

北京大学医学信息学中心常务副主任 雷健波

以“医疗大数据的有意义使用”为主题的演讲是由北京大学医学信息学中心常务副主任雷健波先生给我们带来的。他在演讲中以基因组为例,讲述了医疗卫生跨入“大数据”时代的特点;大数据将催生“科学研究方法”的巨大转变,从假设驱动的方法转向数据驱动的方法。以下为演讲实录:

大家上午好!今天很荣幸有机会在这个场合和大家共同探讨大数据应用的主题,我为大家报告的题目是“医疗卫生大数据-从理论到实践”。我想短短的30分钟无法把医疗卫生这个特殊领域当中大数据的挑战、应用前景、给我们带来哪些变化阐述得非常具体,但是我希望利用短暂的时间把大数据在医疗卫生领域一些主要大的概念、趋势给大家做个抛砖引玉。我会从四个方面进行阐述:一是医疗卫生领域的大数据有什么特点,二是医疗卫生领域的大数据学科基础是什么,三是有什么样的方法支撑来支撑我们对医疗卫生大数据的分析,四是从临床、科研几个少数领域做案例分析,为大家讲解一下医疗卫生大数据对我们医疗卫生领域带来的机会。

人类基因组的测序时代带来意味着什么?

刚才各位专家已经提到,我们现在已经进入了大数据的时代。有报告表明,全世界现在所有的数据其中的92%是在过去的两年之间产生的,可以大数据的体量之大、发展之快是有目共睹的。从医疗卫生领域来讲,一个新生儿在出生的第一天,他产生的数据就相当于美国国会图书馆所有数据的70倍;我们也知道,人类基因组是一个非常伟大的全世界协作的计划,我们每个人都有23对染色体,这23对染色体包含什么样的信息呢?我们每个人的23对染色体包括30亿的碱基对,如果写在黄页或者白页的书上,会有两百页内容,如果读出来的话需要九年半的时间,大概的数据量是3个GB DVD容量,这是一个人基因组的信息。

人类基因组计划给我们最大的贡献之一就是怎么分析每一个人的基因组。这个费用可以从图上看出,2001年对人类完整基因组的测序需要一亿美元,到了2012年是一万美元,我们期待着一千美元人类基因组的测序时代逐渐到来。这意味着什么?以后我们到了医院,每个人都可以很方便地做常规检查,把你的基因组全部测下来,这样的愿景就会带来很多机会。硅谷一个公司叫做23andMe,它可以很方便的对人体部分基因组做测序,你花99美元,把你的标本寄过去,它可以对你一些重要基因信息进行分析、测序。测序有什么作用呢?如果把你的基因信息测下来,可以得到很多信息,首先可以知道一个人祖先的信息。比如说我母亲姓孔,有人说是孔家第75代,是不是真的?我们可以通过基因测序得到这个信息;第二,可以对你现在的健康情况进行分析;第三,他可以预测你的健康以及将来的情况,通过这个分析可以知道一个人喝酒以后是否容易脸红;甚至对于妇女来讲,可以知道你得乳腺癌的机率是多少,如果超过一定界限的话,就会提示你做预防性处理,包括你的性格变化、行为变化,都可以通过这个来预测。

刚才说的是人类基因组的测序,如果每一个人都进行基因测序的话,这样的话信息体量会非常巨大。从图中可以看得出来,在生物医学领域里面,文献最大的数据库是PubMed,数据在10个五次方,发展是平缓曲线,我们再看每个人基因测序信息,它的增长首先体量是在10的15次方到10的18次方,曲线非常陡。从这个可以看出,健康信息数据是呈现爆炸性增长的趋势。随着各种传感器的发展,可以说是实时的24小时可以从人身上测量到无数健康信息,比如脑电图、心电图、血压等等,这些信息可以通过移动设备(手机、无线网)传到云计算中心,提供给医生进行管理。从这个角度上讲,健康数据也是增长非常迅速的。比如说IPhone手机,通过它的一些软件可以监测你的睡眠状况以及其他信息,以及现在发展快的无线宽带,像苹果在做IWatch,这些都产生着非常大量的数据。所以说我们已经到了医疗卫生的大数据时代。从左上角的图可以看出,传统的病历信息存储在备案库,查询、收集非常困难。而现在全世界基本上有大量的电子病历档案已经建立,还有大量公共卫生信息、收费信息、用药、检查、住院信息以及大量的图像信息、心电图信息、管理信息,刚才我们已经提到基因信息,还有医学知识库信息以及实验室检查数据,这样的多样性和大量,意味着医疗卫生领域已经到了大数据时代。

医疗卫生领域大数据时代的到来给我们带来什么?

我们要知道信息化在每个领域都产生着重要的影响,比如说金融信息化、航空信息化,毋庸置疑,很多领域离不开信息化,但是基本上没有一个领域形成一个专门的学科,比如金融信息学。只有在医疗在计算机领域产生了这个学科,生物医学信息学。将来大家会越来越听到,你是从事什么专业?你学的什么专业?学的是生物医学信息学这样一个专业领域。卫生信息化领域可以分成两大类:学科界领域、学术界领域,叫做医学信息学;从行业应用角度来讲叫做卫生信息技术,或者数字化医疗、数字化医院。我用一张幻灯片来讲讲生物医学信息学的概念,这是一门基础学科,也是门应用学科。研究的是生物医学信息的方法、技术、理论,这个会应用到各个领域。从体系上讲,最主要的是临床。每一个人到了医院诊断、治疗,这样的信息技术应用到这个领域叫做临床信息学。还有一个是生物信息学,怎么通过计算机技术帮助生物学的结合,叫做生物信息学。还有图像信息学、公共卫生信息学。这样就形成一个体系,从左到右是从分子细胞水平到组织器官水平,到个体水平再到人群的角度怎么收集信息,帮助人体卫生健康的提高改善,这是人群和社会的水平,所以这就形成一个医学信息学。

第一个概念是生物信息学,它仅仅是在分子细胞水平角度,它是其中的一个领域,它和医学信息学不一样。还有一个概念是卫生信息学,卫生信息学包括临床信息学、公共卫生信息学,所以说卫生信息学和医学信息学不一样。在美国很多大学都有医学信息学专业,有几个典型的学校,比如哥伦比亚大学。最近十年之内,哥伦比亚大学在这个方面的综合实力是排第一的,还有其他的一些大学。中国也有医学信息学专业,但奇怪的是他们主要是以本科为主,而在美国在医学信息学领域是没有本科的,只有硕士、MA、PD、博士后等。

我们现在到了医疗卫生的大数据时代,怎么分析呢?这些分析方法是否成熟呢?远远没有。可以这么讲,有一个数据应该是3月份奥巴马政府就发起了“大数据的研发行动计划”,这个计划一发布,美国的六大部委就率先第一批划拨两亿美元研究基金促进大数据方法研究。从基本的理论来讲,我们拿数据来干吗?是从中要得到知识和智慧。有一个模型叫做“从数据到智慧”,比如说39是一个数据,它本身没有任何意义,如果是39度,就变成信息,这个信息就表明39度可能是体温,39度“从数据到知识”,39度从医学角度上讲,是代表发烧,之后再得到什么信息呢?如果“从数据到智慧”,就证明你需要吃退烧药了。所以任何的数据它的最终走向是我们从中间挖掘出信息、挖掘出知识、挖掘出智慧,这是一个大数据分析的最基本的模型。

大数据带来的变化——对传统科研方面的巨大变化

这里一定要跟大家分享一下。大数据和医学信息学这个新学科催生了传统的科学研究方法的巨大转变,如果大家稍微偏学术一点点,最经典的就是假说驱动的方法。而有了大数据以后,就要过度到新的科学研究方法,叫做数据驱动或者是发现驱动的研究。这两个新的研究方法和传统研究方法有什么区别?传统的科学研究方法或者说传统的科学实际上是源于16、17世纪的启明运动,哲学根源是唯物主义,能观察、能测量,研究方法步骤是发现问题,其次是形成假说,这个假说就是说“估计有这样的知识存在”,最重要做实验,通过实验收集数据进行数据分析,最终得到结论,然后再进行结论的推广,这是传统的以假说驱动的科研方法。这个方法有什么问题呢?它只能解决“Know Know Problem”。从逻辑上讲,很多研究者认为传统的科学研究方法从逻辑上也有缺陷。这里不一一赘述。我们可以总结一下,这样的研究方法耗费巨大、每次收集数据时都是特定的目的收集特定数据,这些数据是没办法再利用的,而且这样的产出,比如说收集数据两三年以后进行分析,然后发现最后结论无法支持,这样的产出可以说是低产出的,这样的研究方法过分强调的是微观、局部。

我们看看大数据给我们带来什么样的科研方法,这样的方法给我们带来什么样的启迪、启示和光芒呢?这个方法源于:信息化革命,存储能力、运算能力、人工智能。哲学根源:不能用传统的方法观察、测量。这个研究方法叫做数据驱动的科学方法。步骤:第一是制定各种数据的标准、功能标准、传输标准;第二步进行信息化建设,收集数据、建立数据仓库、建立大数据仓库。有了这些数据之后,我并不知道这个数据库当中包含着什么样的知识,然后就进行算法研究,这里面有N种数据挖掘算法,然后我们可以自动搜索大数据,同时可能做10种、20种、100种的假说,不同的算法去自动检索不同知识的存在。通过自动化的过程可以在同样的大数据里挖掘出各种各样的可能潜在的知识,最后通过统计学方法得到进一步验证和结论。所以这样的研究方法有什么样的好处呢?它可以解决传统的不知道的问题。大数据里面,我们事先没有假说,并不知道可能存在什么样的知识,我们可以通过“黑盒子”的办法挖掘出潜存的知识和智慧。好处显而易见,它的花费是低的,建成大数据仓库就可以挖掘出潜在的知识。同时随着算法研究、运算能力提高,就可以一直去运行、分析。这些数据是可以重复利用的,产出是高产出的过程。这就是大数据给我们带来的方法学上的科学研究方面的,有人认为是一个巨大的变革。大家可以关注一下。这样的方法可能更支持,从传统、宏观上解决更多的问题。

从科学的领域来看,我们所知道的东西是很小的部分,中间的圆圈是我们可以通过、观察、知识预测到可能存在的知识,大的圆圈里面绝大部分的知识、科学问题,我们根本不知道它在哪里,是什么样的知识。这样的话,科学问题可以通过刚才讲的数据驱动的科学研究方法去发现、证实,用它们为我们服务。从方法学上,大数据给我们带来了一个新的科学研究方向。

举例示范

最后我举几个简单的例子,医疗卫生大数据的分析、方法和成果已经在逐渐的开展,尤其是我刚才讲的医学信息学学科发展,在国外,它的发展是有一大批医学信息学的科学家在研究。从临床、科研的角度来讲,大数据的分析对我们医疗卫生领域带来的巨大变化。我举几个例子,比如说去看病,一个人的健康数据会越来越多,一个病人去看病,医生可以看到很多信息,那么医生怎么样消化吸收这些信息呢?我们有一个技术是能够自动进行临床信息的总结,这是人工智能技术。另外一个领域,如果一家药厂研发新药,花费是非常昂贵的,基本上平均耗费8亿美元、10到17年的时间,而且只有10%才成功,所以说研发新药成本是巨大的,包括经济和时间上的成本。那么大数据分析可以带来什么革命性的变化?从新药研究过程,包括临床前期、临床实验一直到病人使用这个药,每个过程进行数据分析都可以带来革命性变化。比如说虚拟筛选,可以从很多潜在药物当中筛选出可能的药物。

另外一个领域特别有意思,就是在现成的药物里发现它的新功能。刚才我们讲了,一个完整的开发新药过程需要那么长时间、那么大精力。那么在现成药物里能否发现新的药物、新的功能呢?这里有一个例子,这个是药厂在偶然机会当中发现的,是可以通过大数据分析可以发现药的新功能。比如说通过电子病历信息库,现在这块绝大部分信息是非结构化的,这里有一个技术就是自然语言处理技术,通过这个技术可以把电子病历里面的信息全部挖掘出来,这个研究是我的同事取得了一个新的发现--有一个新的药对癌症有治疗作用。他是通过电子病历里面自动找到几组病人,一组是糖尿病人用胰岛素的,第二组是糖尿病用其他药物,第三组不是糖尿病的,第四组是用了他这个药。发现这四组病人分析,看以往十年的数据可以看出,用这个药存活率大大好于其他组。所以这是一个重大的发现,就是这个药具有抑制或者抗癌的作用。对药厂来讲,通过一年、两年的研究可以给他省去8亿研发费用,这就是大数据分析对药厂的巨大作用。分析药物新功能不仅可以通过电子病历也可以通过文献进行分析,生物最大医学文献就是PubMed,里面有两亿篇文章,通过自然语言处理可以获取五亿个事实,通过它研究可以发现某些药有什么新功能,进行验证。这是“旧药新功能”研发,这是一个医学信息学的新领域。

另外一个例子就是糖尿病肾病,由于糖尿病引起肾脏功能衰竭,这个危害非常大。我们从大数据角度怎么认识这个病呢?这里有两个方面,一是我们有一个重要的研究方法,叫做GWA,基因组关联研究。自动从数据库里面找到糖尿病肾病的病人和不是糖尿病肾病的病人,我们找到这两组病人,然后这两组病人全部用基因组方法,把他的基因组测序出来,看一看糖尿病肾病的病人他的基因组特殊的变异,从中就发现糖尿病肾病是多基因引起的疾病。这是什么意思?这样的话,一旦有糖尿病的时候就做基因组测序,就可以提前预测这个人可能发展成为糖尿病肾病的可能性有多大,进行提前处理。这个意义重要性之大,就很清楚了,这也是通过大数据的分析,基因数据分析、临床数据分析得出来的。同样的问题,我们还是可以通过文献的方式进行研究(这也是我美国的同事所做的研究),医疗卫生大数据,从临床、医疗卫生服务甚至是健康物联网跟我们平时的生活习惯、生活模式带来的巨大变化。可以讲,信息化如果和健康整合就会关系到每一个人的生活、健康,我们可以去展望,数据是“新的石油”,我们怎么找到这个能源和挖掘它,这是非常值得研究的。

有人说,大数据革命将比互联网给我们带来的革命更大。在这个革命里面,需要大家一起努力,面对、迎接大数据,尤其是医疗卫生大数据的挑战。这就是我的报告内容,谢谢大家!

【责任编辑:志娟 TEL:(010)68476606】

标签:医疗大数据  
  • 分享到: