您所在的位置:首页 > i医疗 > 科技前沿 > 技术标准 >  大数据预测流感的不成功经验(2)
大数据预测流感的不成功经验(2)
  • 2013-10-25 09:07
  • 作者:佚名
  • 来源:PConline

2 最直观的大数据案例

 

近些年,一些大规模的传播疾病一直没有间断,从非典到H7N9,病毒性流感一波又一波袭扰人类,流感病毒不断变异并传播开来,令药物和疫苗要么准备不及,要么无法预防。但是如果能提早发现流感的发病趋势,不仅能为抗病毒药物的准备争取宝贵的时间,而且还有助于疫苗研发机构能尽早采取措施。

 

 

作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。

可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。

 

 

谷歌的工程师们想到了从大数据的筛选过渡到流感的防治问题上。但是他们首先面临的任务是选择流感相关的关键词。工程师将关键词的选择权交给机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。

再从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词筛出。

 

 

实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。

共4页: 上一页 [1]2 [3][4]下一页 [查看全文]
标签:大数据  H7N9  
  • 分享到: