待我下个生日时,我就达到了我父亲的临终年龄——那时他死于心脏病大发作。在某种意义上,我父亲就跟任何一个二战老兵一样:他工作努力,吸烟,从未生病到要去医院的程度。当他在医院里去世的时候,他的医生提到,我父亲已经经历过几次不太严重的疾病发作,但像他这样的人,很典型的会将这些疾病发作视为胃灼热,并简单的拿制酸剂应付了事。
这是千真万确的。当清理我父亲的屋子时,我们发现了一大批制酸剂盒子,非常明显的置于他最爱的几个地方:卧室、前廊和睡床够得着的地方。25年前,这是件趣闻轶事。但在今天,这是一个信号,我们最终将凭借大数据的力量,在这个国度的医疗质量方面做出有意义的改进。
为了达成这一目标,我们首先需要移除一些顽固的障碍,这些障碍局限了大数据在医疗行业潜力的充分发挥,而这过程需要从明了大数据的工作原理开始。
在2001年,美国咨询公司META集团(编者注:该公司于2004年被Gartner公司收购)的CEO Doug Laney创造了“大数据的三个V” 这个词汇。它主要是指当对分散的数据集进行深度分析时,需要控制数据的数量、速度和类型。他的论点是大数据分析的任何潜在应用需要考虑数据集的规模、数据的不同来源以及新数据处理速度之方式的依赖。下面,让我们通过我父亲的鲜活例子,逐个考虑医疗分析中大数据这三个方面的暗示。
数量
我父亲的医生对将微小的心脏病发作诊断为胃灼热不能被当做支持特定干预的充分证据,但他偶然观察到的症状可能会被视为以下信号:制酸剂使用的增加在发现即将到来的心脏病发作方面到底有多敏感呢?在发作之前用量增加的频率是多少呢?这些问题的答案还有其他影响因素吗?在这之前,还有很多问题需要求证。
如果我们的目标是发现心脏病大发作高可能性的有意义且可靠的指标,那么这些问题必须通过应用统计学和数据挖掘技术来回答。为了确保这些技术提供预期的结果,它们必须应用在海量的数据之上:包括大量患者通过制酸剂的使用和临床结果之间可能的结合等例子来呈现这些方法的历史数据。
类型
大数据能提供机遇连接和进入医疗领域之外的新数据来源。在我们的情形中,类型多样化的需要是很明显的。我们在寻找零售数据的信号,即不同的数据来源,为的是分配医疗事件的风险。但是,进入和运用这些数据也存在两个严重的问题,它们将阻碍这种类型的研究成为现实需要,明白这一点也是相当重要的。
第一个问题是个人的隐私权。电子数据和道德的获取和使用是一个严肃的社会话题。只要对数据使用的特殊目的加以限制,取得个人同意之后方能获取数据,大多数人对此要求还是能接受的。什么是真正的同意,当然对此肯定存在争议,但是若能保证个人利益,大多数人应该会允许数据访问。因此,通过提供显示相关信息和改进结果之间存在直接联系的真实例子,以此证明价值(比如挽救生命)也是至关重要的。
第二个问题是方法论上的问题。访问包含大量数据元的高容量数据,在特征和结果之间的某种关系很可能显得非常有意义,而实际上却并不如此。比如,在我们的情形中,制酸剂和心脏病发作之间的关系很可能是由于与第三变量之间的共同关系诱发的,但这种共同关系在采样中没有得到控制。解释这种结果需要对采样物的专业知识,以此为我们自我诊断的胃灼热与心脏病发作之间的关系提供一种貌似可行的药用机理。
速度
在美国,每年有超过230亿的信用卡交易,这相当于每天6300万、每小时260万、0每分钟44000。此外,中介商每年收取了超过12亿的服务费用,意味着超过一百万的供应商每小时可得2300美元。综合诸多以这样的高速运行的数据来源,以及寻找提示某些实时干预种类的模式就将要求全新的、高效的计算和分析能力。
在我们的情形中,足够的速度可能就是每天或每周更新数据来提示管理并治疗病人。在这种情况下,风险只能在一段时间内得以识别,这段时间要足够长到能提示制酸剂购买的可测性增加。制酸剂使用的增加能不能被足够可靠的识别出来并有效防止心脏病发作呢?当然,这不仅取决于风险测量,还要看医疗系统干预的速度。
真实、准确、精确——有效的分析总是要求这些词汇,输入数据有效并可靠到能支持有用的结论。这并不稀奇。现在不同的是,数据类型越来越多,数据运行越来越快,大数据对确保数据精度采用的方法上提出了新的要求,因为它与方法和目标之间存在特殊关系。
在我们的情形中,我提议,将便利杂货店和药房零售数据与就医诊断联系起来,这将会为预示健康事件或结果的消费行为带来新的视野。第一个挑战就是将个人和数据匹配起来。如果获得许可,有效匹配是可行的,比如用普通的识别符社会保险号和地址就行。
我们需要的是能用来搜寻潜藏在嘈杂之中的难懂信号的不同数据来源。这些数据可能是杂货店或药房销售记录,或短信息,或搜索,或图书销售。而且,我们要赢得公民、立法者和监管部门的信心,关于数据安全的严苛要求将会达到最严格的标准。这些都是不容易的,但我们比任何时候都接近我们的理想:将大数据真正的、救生的希望变成现实。
原文标题:GUEST BLOG: Can ‘Big Data’ Save a Life?
原文作者:Bob Kelley
验证码: | 点击图片可刷新验证码 |