- 2017-05-05 09:43
- 作者:刘中正
- 来源:中国数字医疗网
基因是目前最复杂最庞大的"大数据",它携带着一个生命的"历史"和"未来"。随着二代测序技术的发展与基因诊断的不断推广,人类的基因数据将成指数性的增长,而这些基因密码将携带者大量的人类已知的信息和未知的密码。在2017中国医疗云技术领袖峰会上,上海其明信息技术有限公司(以下简称:其明公司)研发总监蔡家华以《互联网技术在基因大数据中的应用》演讲为主题,呈现以互联网技术作为基础设施,给生命科学、基因行业带来的变革。
互联网技术破解基因数据难题
在传统的基因研究工作中,研究领域已经被海量数据淹没。大量的基因数据没有得到有效利用,大量的生物样本数据没有系统的保存,对于科研工作者如果研究某种疾病或者药物,需要各处翻阅大量文献比对大量基因数据,而且研究信息不够集中散落在各个地方,甚至还需要学会很多种分析工具,特别是对本就工作特别忙的临床科研医生来说这就是非常困难的事。
在2015年3月其明公司首个"互联网+基因"的基因数据在线分析系统GCBI投入运营,这是集合了文献、样本、生物数据库、数据分析为一体的基因云平台。这个基因云平台让互联网与基因"相加",为传统的生命科学领域与生物医药行业带来颠覆性的变化。
- 庞大的数据量
提到基因就不得不提及数据量的问题。单个样本数据量大,生物信息数据库数据量庞大,导致基因数据面临存储、传输、整理、展现等问题。蔡家华表示GCBI平台对于这些问题都有应对之法。数据存储:在GCBI平台上将数据分为:高频数据、冷数据、文件数据、通用数据、检索数据;数据传输:相比较传统的数据传输方式,基于平台的传输效率提高3-5倍;数据整理:建立自动化流程,减少人为干预的过程;数据展现:通过统计图展现数据的概况,利用交互式图形,快速定位到用户想要的数据。
- 文献处理技术
截止到2017年4月19日,在GCBI平台上拥有2700多万篇文献,访问平台的用户有超过50%的是在查阅文献方面。蔡家华表示,GCBI平台在文献内容上,一方面是为用户提供文献检索,另一方面是文献的挖掘。在文献挖掘中,主要是利用机器来了解文献内容,再根据内容进行分类,进而方便用户检索所需的信息。
- 数据分析效率
基因的数据量大,导致了数据分析的复杂度也随之增加,如何充分利用现有的服务器资源成为关键。GCBI平台针对数据分析计算的问题方面通过:共享内存、系统资源预估及规划、支持多线程及分布式、代码模块化四个特点来应对数据分析的难题。
- 生物数据库
在生物数据库方面,GCBIZ整合了20多款生物数据库,同时还包括其名公司自有人群频率数据信息。
云技术加快基因数据分析
基因测序和大数据、云计算紧密相联。蔡家华讲到,云计算的优势在于能够通过分布式计算对大数据进行处理,从而极大提升运算效率以及降低成本。同时,极强的抗灾容错能力,保证数据的安全。还能让客户可远程安装操作系统,体验“自助服务”。
蔡家华介绍到,在2016年3月28日上线的GCSAS产品,其测序分析系统相比较其他的测序分析平台,具有四大特性:可视化。提供基于网页的模式,用户可以根据实际分析需求选择分析组件,搭建分析流程;分组差异分析。在给定分组条件下,筛选出显著性变化的转录本(基因)列表,从而更好地鉴定生物相关功能;数据过滤。根据不同的数据类型,提供与其相关的过滤规则及属性,帮助用户能够快速的定位到有价值的数据;多元化的分析组件。除了差异分析以外,还提供了数据交集,扣集的处理。针对于基因数据,提供了功能和通路的分析算法。
目前,GCSAS已经在临床方面有着不少的应用。例如:中国人乳腺癌易感基因分析平台、分子病理操作流程及数据管理系统、生命健康大数据挖掘系统。蔡家华表示,GCBI未来将会构建一个中国最大的基因数据共享数据平台,这些数据将直接帮助临床医生,在指导药物治疗和靶向治疗方面起到非常大的作用。
精准医疗的关键核心要素就是基因信息分析,这需要大量的数据来分析不同方案对于不同基因的疗效。通过基因云的建设,科研学者可以通过平台分享自己和使用他人的基因数据成果,最终形成大数据,创造出因人而异,难病可治的新机会。