大数据的陷阱与小数据的重要性

您所在的位置：首页 > i医疗 > 医疗信息化 > 大数据的陷阱与小数据的重要性

大数据的陷阱与小数据的重要性

2014-08-08 09:09
作者:Dr.2
来源：雷锋网

在医疗大数据项目中，很多情况下，由于无法验证有效性、敏感性和特异性，所以即使得出了100个结果趋势，却没有几个是有临床参考意义的，就是说即使看起来是那么一回事，又怎么样，能反过来指导临床吗?因为医疗是非常特殊的行业，所以单独强调大数据是一种很片面、盲目的做法。在这个大数据时代里，我们要重视传统的小数据研究(或者也可以称之为抽样数据)，其实大数据和小数据可以相互结合，相互印证，互为补充，互相借鉴的。

那什么是小数据呢?小数据研究有几个方向：

1.搜集一段时间和地点内的大量医学资料，进行回顾性研究。

2.根据所要研究或者验证的意图，设计方案，通常有一比一配对，随机对照双盲等方法，进行前瞻性研究。

这两类分析在搜集资料的时候都要进行统计学处理，均衡性检验，去除很多无效的杂波和噪音干扰，相比一些所谓大数据分析的眉毛胡子一把抓，通常得出的结果更为精准。

3.还有一类就是持续追踪个体的小数据，也就是我们每个人的数字化信息。因为人存在很多的个体差异，所以每个人身上的小数据也是千差万别的。它不比大数据那样浩瀚繁杂，却对我自己至关重要。当然把大量的人的小数据整合起来可以视为大数据分析，但是前文Dr.2也说过，有的时候整体平均趋势对个人是无价值的，甚至有害的。前天看个笑话，有个身高1.8米的人问大数据科学家能不能过前面这条河，科学家经过全河流域的大数据分析后，得出平均水深1.2米，于是他放心地趟过去，结果淹死了!

再比如癌症治疗，现在有十分火热的个体化治疗，基因治疗和细胞治疗，不是仅仅“对症下药”，而是要同时“对人下药”。与其他行业不同，一些重大疾病的治疗是一个“非标”的过程，这其中需要组织医生、患者、医疗资源等，治疗每个疾病，不同患者所需要的时间、财力、流程和预后都是不同的，而且每个人的基础和个性需求也是多样化的，不可能达到标准化。因此，这些个性化的治疗都需要记录和分析个人的小数据，并进行预判和综合评估。

当然，Dr.2从来没有说过大数据不重要。事实上，在医学上发现的一般规律，往往是从大量数据中隐藏的一些重要线索。欧美各国都在计划编制患者信息的整体数据库，不仅是为了统计分析，也是为开发新药物、新技术和新方法，更好地服务整个人群。集成大量的在线数据库也可以指导个性化用药(如计算安全性的概率)，减轻他们的痛苦。

从大数据中得到规律，用小数据去验证，在小数据中发现问题，再观察相关大数据的变化，交互印证是非常重要的，但是目前很多的商业行为充斥着我们的移动医疗圈，过分强调大数据的背后，是有利益驱动的故事在的!

接下来，我就来跟大家说一说大数据的陷阱!

1.数据采集带有倾向性。

我们在对海量数据进行分析，这其中存在了一个概念的偷换，就是你首先假设了你分析的大数据都是有价值的，然后才会去做这个事情。打个不恰当的比喻，好像现在的各大媒体，无论结果如何，不需审判，就可以都对郭美美进行“有罪推定”，而不再考虑什么严谨啊，法律合规啊，人权之类的事情(即使是罪犯也有人权)，那么无穷无尽批评中国缺乏法制精神的这批道貌岸然的人，其法制精神何在?一切只为利益、眼球和收视率!

采用严重有偏的数据几乎能够产生任何人需要的任何结果。Dr.2在第一章就曾经说过，我们经常能够看到有些公司说“通过XX大数据分析，得出YY的结论，而我们的产品符合啥啥的结论，所以是多么多么好!”你乍一看就不怎么样，仔细一看还不如乍一看!因为这样带来的结果能给他们带来商业价值。

2.大数据本身的“陷阱”。

大数据“采矿”常犯的错误之一，就是由于因为相关性存在于多种可能性之中，但是你会怎么选择呢?这是系统性问题，理论上来说，只要有超大样本和很多变量，我们都可能找到无厘头式的相关性。它完全符合统计方法的严格要求，但两者之间是个什么关系呢?只要我们对着一堆足够多的数据进行反复研究，进行不同模型的尝试，上千次后，一定会找到统计学意义上成立的相关性。这就是常见的大数据分析所犯的另一个人为的错误——由相关性去论证因果关系。

在刚刚结束不久的2014年百度联盟峰会中，李彦宏在大数据和医疗的结合中提到：“未来真正的大数据积累应该是可以提前预测人的疾病情况，因为疾病不是一天出现的，而是天长日久累计出来的，各种数据一定发生变化。有价值的数据，不是无用的信息爆炸，而是有价值的慢数据，可以预测个性化信息的数据。”Dr.2深表同意，在大数据之上的慢数据，去掉了很多杂波干扰的数据，才是真正有价值的。

医疗监测是时下行业内很热的一个话题。现在已经出现了某种监测技术通过对周围的大数据进行监测并分析周边疫情动态来预测下一场变异性流感等流行病的大规模爆发。人们再也不必恐慌和担心被传染，早就有相应提示及时应对预防;而与此密切相关的医疗行业，可以及时获悉疾病爆发趋势，合理分配和部署好医务人员，同时提醒和建议市民预防疫病，降低人们染病几率……这是不是看似很美好很强大?其实不然。

大数据监测流行病忽略了一个事实：大数据是根据所收集到的海量数据，与目前医学领域中已有的传统疾病进行对照研究、数据分析等一系列工作。所以其通常很难预测未知的新疾病，像SARS、甲型H1N1流感和现在的埃博拉病毒的爆发等。去年卫生部发言人就曾提到：“中国面临传统流行病威胁持续存在、新发流行病不断出现的严峻形势。”所以我们要对大数据的疾病预测能力有客观的评估，一边倒地鼓吹并无价值，从系统上来说，想预测黑天鹅，这本身就是一个“mission impossible”的哲学命题!

3. 统计学一样会欺骗你。

统计学是通过搜索、整理、分析数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。它是一种模型，是一种探索未知世界的工具，试图对事物本身有所认知上的突破。但通过统计学所得来的认知是仅供参考的，谁说90%的人说它正确，它就一定正确了?就像千百年前，所有人都认为太阳围绕地球转一样。

其实这与“市场失灵”是一个道理，再比如物理课上我们还总是假设一个小球从没有摩擦的斜坡上滚下，然后以此来计算小球的各种数据……然在现实生活中，怎么可能呢?所以统计学经常会出错的，黑天鹅无处不在。

谷歌虽然在09年的流感预测上做出了漂亮的成绩，但是在2013年初，谷歌流感趋势被媒体大量批评，原因就在于其数据总是大幅偏高于真实的流感数据。因为在进行数据分析的时候，我们需要尽可能地利用各种统计分析方法来剔除系统误差。但是在谷歌流感案例中因为它无法剔除残差的“自相关性”以及季节性(因为到了换季时节容易感冒，所以即使我没有生病，那时也会去进行相关的检索)，也就是Dr.2前文中提到的“大数据反作用于大数据”，所以导致它的分析结果出现系统性误差。

4. 无法确定“主观性数据”是否经过数据来源者的美化。

移动医疗大数据分析确实有一部分是客观资料，但是也有很多是来自于受众的“主观性数据”。如果普通大众愿意配合提供自身数据，那我们如何保证这些数据都是真实有效的目标数据呢?这也是移动医疗需要提前考虑的一个重要问题。

我们假设某移动医疗企业，不带偏向性地深入市场调研然后进行大数据分析证明，20~40岁群体中有20%的人每日锻炼时间在2小时以上。从该公司的整个调查和分析过程中，确实是没有什么问题，均衡性检验我们也发现不了异常。但是!有时候我们忽略了，被调查的人他们自己会虚报情况!出于这样那样的原因，比如跟别人说自己从来不运动，是不是不好啊，没面子啊，感觉很low啊，于是就会将自己的数据向上统计。

所以乔布斯说，我从来不做所谓的市场调查，这是有原因的。因为主观性数据非常容易出现虚假!在进行街头调查的时候，你可能会得出，喜欢阅读各类时尚杂志和财经杂志的人特别多，但是当大伙冷静地看一下销售量，你就会发现故事会、知音和青年文摘这种有深度的期刊，其月销量是某些“高大上”杂志的几十倍!

全文连载至现在将告一段路，Dr.2收到了很多小伙伴们的反馈、鼓励与批评，我将其整理了一下，发现这也是一个有意思的小规模“大数据分析”。一般移动医疗从业者，他们中性或者批评意见比较多，不明真相的群众一般都是“好，太棒了，涨姿势”之类的话，专业人士多会针对某一点进行辩论和探讨，并给我列出不少参考文献，在此一并感谢，我会继续努力学习，与时俱进的!

最近我读了美国颇有影响力的预测专家纳特·西尔弗的《信号与噪声》，他在书中分析到：“如果信息的数量以每天250兆亿字节的速度增长，其中有用的信息肯定接近于零。大部分信息都只是噪声而已，而且噪声的增长速度要比信号快得多。”由此看来，当数据信息铺天盖地而来之时，我们也有可能距离真相越来越远。最后我也提出一个问题让大家进行思考，因为批评一件事很容易，构建一个体系很困难，在现实中，对于一个想以大数据分析来运营驱动的移动医疗企业来说，到底该如何去做才能一步一步实现我们的理想呢?

【责任编辑：少丽 TEL：（010）68476606】

【收藏本页】【复制链接】【打印】

标签：大数据

分享到：