您所在的位置:首页 > i医疗 > 医疗信息化 >  医疗数据利用面临数据质量问题
医疗数据利用面临数据质量问题
  • 2013-12-02 09:37
  • 作者:佚名
  • 来源:健康界

近一两年来,在各种医疗信息化论坛和会议上“大数据”已经成为流行词汇,谈信息化就离不开大数据。大数据正向各行业领域渗透,恍惚之间让人民感觉大数据时代真的来临了,大数据的金矿似乎在向众人招手。人们不禁疑问:医疗大数据真的就近在咫尺么?

世界著名的咨询公司麦肯锡在2011年发布了名为《大数据:下一个竞争、创新和生产力的前沿领域》的研究报告 (Big data:The next frontier for innovation, competition, and productivity), 该报告陈述了大数据已经对美国健康医疗、欧洲的政府公共管理、个人位置数据、美国的零售业及制造业等五个行业产生了重大的经济影响,其中医疗领域每年能够产生3000亿美元的潜在价值。报告指出了医疗健康领域的主要应用在五个领域:临床运营,支付/定价,药品与设备的研发,新的商业模式,以及公众健康。在每个领域内又进一步细化为不同的亚主题领域.

医疗大数据实际应用也初见成效。一直为医疗大数据的拥趸者津津乐道的应用经典案例是:谷歌公司2009年第一时间成功预测北美地区HIN1流感疫情的爆发,甚至比美国CDC的报告还要早。

让我们视线回归国内,看看中国医疗数据的情况。为了更清晰地进行脉络梳理,按照医疗数据来源划分,数据主要来自三个领域:医疗机构、政府公共卫生机构暨医疗服务提供方、社保部门暨支付方,还有互联网和移动互联网产生的数据暨消费者产生的数据。至于医疗健康产业(药厂、设备厂商等)属于企业数据未纳入分析体系。

医疗机构的数据主要集中在医院,根据调查,一个典型的三级甲等医院每年全部数据量在1TB~50TB,其中医疗影像数据量超过全部数据量的90%,而在数据分析利用层面的数据则主要集中在非影像数据,这些数据不过几百个G。从医院信息化发展来看,我们已经完成了数据的积累、采集,目前重点变为互联互通, 数据利用也已经提到日程上来。但这个过程中我们仍然面临着众多因素的挑战。

首先遇到的最大挑战是数据质量问题。主要表现为数据缺失、数据错误、数据不统一,这与最初的医院信息系统需求、架构设计有关。

其次,医院内部的数据还没有有效地集成与整合,造成“孤岛林立”,不同应用系统数据没有实现互联互通。近几年来,临床和管理专业化的应用系统不断向广度和深度扩展,但是缺乏有效的数据治理,数据与业务流程的标准化,由于缺乏建立全员级别医院内部数据中心,使得数据分析利用受到极大的限制。

从更广的区域级别的层面上来看,尽管过去几年间各地轰轰烈烈兴建区域医疗平台,但是在跨院区实现医疗数据的集中与共享上,仍然是“理想很丰满,现实很骨干”,实际与设想有不小的差距。虽然区域信息平台有技术、标准化的限制因素,但这些更多来自政策指导,而缺乏有效的激励机制,大型医院不会有主动共享数据的意愿。行政指令下采集院内数据有限,在本身医疗资源与体系没有变革的情况下,很难实现区域医疗信息共享的理想。

最后,政府部门亦没有主动提供数据的意识,除了年度公布的卫生发展情况,大部分收集数据没有对公众开放。尤其十余年医保数据对公众以及卫生经济、政策专业机构开放更是水中望月。大数据仅仅作为时尚词汇,尚未进入卫生管理层的实施考虑,更谈不上政策的支持。有识之士积极倡导大数据应列入国家级的战略,以谋求政策的支持。

与此形成鲜明对比的是,来自传统互联网和移动终端的消费者数据正成为新的商业模式和公众健康的主要来源。伴随移动互联网的迅猛发展,在某种程度上为大数据采集提供了基础。现在火热的大姨吗、春雨掌上医生等移动终端应用,由于更为贴近用户的需求与使用体验,可以比医疗机构更能广泛地采集用户的健康信息数据,加之稳固的商业模式,使得大数据利用或许成为可能。但就商业本质而言,这种数据利用更像是消费者行为分析。在有商业利益的自发驱动下能够提供消费者的健康保健服务,而且服务提供商也能寻求到相应的利益诉求。

除此之外,数据利用的关键技术环节上目前也有局限。事实上,根据外媒报道,在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。专家认为,此事彰显基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。此前Google流感趋势则是根据对流感相关关键词搜索的数据挖掘,过去几年 结果也相当精确。但Google流感趋势使用的模型必须每年进行调整,科学家指出基于搜索有太多的噪音影响了它的精度,这意味着来自互联网和社交网络的信息得出的结论只具有参考价值,因为这些数据来源不够“纯净”。

我们必须清楚地意识到大数据的根本目的是在于数据利用,以指导健康与医疗干预,并延伸出相应的商业价值。所以面临着数据采集后如何利用的问题。数据分析目的是什么?如何进行分析?达到什么样的结果?而这一切都是 人的因素。在方法上,先抛弃“大”而言,所有数据的利用关键在于使用数据的人。数据是基本的食材,菜肴是否可口,不在于多少。大锅菜未必就有小锅菜烹饪的好,如何做出饕餮盛宴,要看大厨如何妙手烹制,这就是大数据根据分析的方法,如何进行数据建模。

严格地说,大数据的特点决定了,大数据本身关注在未来趋势预测、不关注数字的准确性,也不关心因果关系,只关心关联。这些与医学研究也不是完全匹配的。当前很多业内人士认为,大数据关键是数据的利用而不在于数据量的多少,现状是现有的数据都没有很好的利用,不免让人生出质疑:这些数据究竟为何种目的进行利用?是不是只有大数据才能解决? 而传统的各种统计方法并没有过时,数据质量是基础,而不是所谓越大的数据量就意味着结论就越正确。

所以人们要冷静看待医疗大数据,做好基础的数据治理,更重要的在于政策思路的转变,只有具备正在高质量的数据源,大数据应用才能发挥其应有的价值。

【责任编辑:晓一 TEL:(010)68476606】

标签:医疗数据  大数据  
  • 分享到: