- 2018-07-19 10:10
- 作者:佚名
- 来源:开放知识图谱
以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。
然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。
在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。
一、知识图谱用于医疗文本的结构化与规范化
在临床中,大量的医疗文书是以文本形式存在。电子病历的文本包含了病人病史、家族史、症状,以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。
为使得文本更好的结构化,需要用到实体识别、关系抽取技术,根据技术的不同,也会用到一些基础的文本分词或是词法分析等技术,在这个过程中,可以手工标注语料,用各种监督学习方法,传统的有 CRF,新的方法可以基于 RNN 网络;也可以基于字典方法,利用症状、检查、药品与疾病名称的知识库。为了免除语料标注的麻烦,笔者基于症状知识库以及症状语法结构做了远程标注,再进行 CRF 建模,取得了比较好的效果。
然而,仅仅是结构化也是不够的,因为医疗术语存在大量的同义词或上下位词,比如说,同一症状具有多种多样的文本表达形式,如“期前收缩”、“过早搏动”与“早搏”是同义词。再比如说,一个症状常常被不同的词语修饰以表达略有不同的语义含义,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位词。
再以疾病为例,目前医学诊断大量采用了 ICD 编码,但 ICD 编码结构并不包含完整的上下位关系。以中文 ICD 编码[1] 中的“特指急性风湿性心脏病”为例,它的上位词有“特指风湿性心脏病”和“急性风湿性心脏病”,这两种疾病拥有共同的上位词“风湿性心脏病”,“风湿性心脏病”又有上位词“心脏病”。而这几种疾病之间的关系和层次结构并没有在 ICD 10 中通过编码结构表示出来,只是通过编码的首字母“I”将它们划分到了循环系统类疾病中。如过我们需要希望找到某一类患者,无法通过一个ICD编码获得,而是需要人工的选择多个 ICD 编码。从另一个角度而言,对于同一个疾病,医生在编写 ICD 编码时,可粗可细,也会给病历的自动处理带来困难。
为解决上述问题,首先需要现有的编码系统有对应的图谱方式描述,至少具有上下位和同义词关系,进一步的,也可以通过电子病历中的文本诊断,利用图谱,对电子病历数据进行自动编码。
二、图谱表示用于关联知识与数据
电子病历中存储着大量的数据,但仅在病历数据内部做挖掘及分析是有局限性的,难以发现数据中蕴含的深层次的价值。将病历数据以 RDF 格式发布,形成病历图谱,并与开放知识库(如中文症状知识库)相关联,将对疾病预测、用药推荐和相似病人发现等打下良好的基础。
比如说,在电子病历用药时,写的会是药品名称,但是,在分析的时候,通常医生会用大类名称,如 ACEI 类药物,或是 ARB 类药物等等。这时候,病历图谱需要和药品图谱关联,就可以更为方便地做各种临床分析,再比如说,Topfed 项目将 TCGA 项目中发布的癌症病人的基因数据进行 RDF 化,并与其它开放数据集关联,进而做了一些有趣的分析,获得了 ISWC2013 的 Semantic Web Challenge 大奖。例如输入一个病人的特征,找到库中与他类似的病人群,根据相似性找到相应的药物方案,如果病人对此药物有抗药性,可以寻找药品库的同类药物。
三、总结
虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。针对上述问题,OMAHA联合中文开放知识图谱(Open KG),系统性的梳理和汇集知识图谱相关的技术和工具,并向整个社区开放相关的技术资源,一起促进医学知识图谱数据的开放与互联。
更多资料欢迎大家移步OMAHA联盟官网知识服务平台查看。
如果你也对促进医疗数据开放、医学信息标准化、行业研究和生态建立感兴趣,欢迎进入OMAHA基金会官网了解更多。
OMAHA联盟官网链接:http://www.omaha.org.cn/portal.php
OMAHA基金会官网链接:http://foundation.omaha.org.cn
参考资料:
[1]疾病和有关健康问题的国际统计分类第十次修订本(ICD-10)[M].人民卫生出版社.1996.
[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47
- 分享到: