您所在的位置:首页 > i医疗 > 科技前沿 >  IBM光谱计算:“高大上”的基因测序走入“寻常百姓家”
IBM光谱计算:“高大上”的基因测序走入“寻常百姓家”
  • 2016-12-01 16:06
  • 作者:石晨露
  • 来源:中国数字医疗网

近日,Nature刊登了一篇题为《Diagnosis: Aclear answer》的文章,讲述了基因测序如何让一个被误诊30年的女性得到了确诊。在基因测序结果的指导下,她服用了靶向特定突变的药物,病情得到了缓解。这个故事表明,基因测序有可能改变很多人的生活。

过去几年里,基因测序技术引起了广泛关注。美国《福布斯》杂志网站在2014年的时候曾发表文章,列出了中国8个在创新方面走在世界前列的行业,其中之一便是基因测序。随着精准医学计划的发布,基因测序热度持续飙升,基因测序技术的价值不可估量,通过对基因的分析,我们可以预判患癌几率,亦可提前给出精准预防和疾病治疗方案。

如今,我们的基因测序相关的产品和技术其实已经从实验室研究演变到临床使用的阶段,可以说基因测序技术是下一个改变世界的技术。然而,经过一段时间的高热,基因测序遇到了瓶颈,面临计算能力不足的限制,这项技术很难造福大众。而且,一个人的完全测序的基因组包含了100-1000GB的数据量。而一百万人的基因组数据量合计将达1EB(1000000TB)的数据量。要对这么庞大的数据量进行分析比对,则对于运算设备的计算能力提出了极大的挑战。而且再加上高昂的费用,使得这项技术还停留于少数“贵族”群体享用的阶段,其离普通大众需求还存在相当远的距离,只能对着“高大上”的基因测序望而却步。

高通量、大数据的分析对计算资源消耗高

基因测序是基因检测的基础和主流技术,从测序仪上看,第一代的测序技术主要是Sanger测序,准确性高,测序读长可达1000bp,准确率高达99.999%,但是测序通量低,而且价格昂贵,严重影响了其真正大规模的应用。第二代测序技术(Next Generation Sequencing, NGS),主要有Roche/454 FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system等常用的测序平台,最大的优点就是成本较之一代大大下降,通量大大提升,但缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。但是Illumina主要的问题是测序长度短,100bp以上错误率就会大大提高。Roche/454 FLX、Applied Biosystems SOLID system的测序长度可以更长,但是成本比略高。短序列的reads在做基因组装的时候,遇到大量的重复片段就会非常麻烦。第三代的测序技术,即所谓的单分子测序,可以测的长度很高,但是会引入第二代测序很少出现的indel(插入,缺失)的情况。

从数据分析上看,高通量、大数据的分析,在计算机的存储和计算资源的消耗上都是非常高的。从实验室提取DNA,但最后得到分析结果,中间需要经历“建库-测序-比对/组装-变异检测-注释”等一系列实验和数据分析过程,第二代测序技术动辄单个样本就上T的数据量都会使得分析过程耗时耗资源。

由于基因行业是一个比较新的行业,各个企业的标准难以统一。在分析过程中,会有很多步骤,而且每个步骤都会包含很多分析脚本,系统命令和外部工具,工具要被反复手动部署到计算集群,导致分析流程变得比较繁杂。随着基因组测序成本的降低,其测序的数据量不断提升,这种低效的方法已经阻碍了基因行业的发展。繁杂的命令行操作导致了交互性能的低下。

尽管随着近年来运算技术和能力的不断提升,人类基因组数据分析所需时间已从“数年”缩短为“数天”,然而这几天的时间对于某些急危重症患者来说还是显得太长。目前最先进的测序仪每一次测序的数据产量是 1.5TB(大约为 150 人的数据量),并且产出这些数据的时间为 3.5 天。用传统的 HPC 集群进行分析的话,基本需要 3 天的时间来分析一个人的数据,而单个节点的话则需要 5.8 天的时间。由此可以看出,数据解读的效率远远跟不上数据的产出速度,这就为精准医疗后续的发展带来了极大的挑战。因为精准医疗就是要精准到个人的个性化用药,每个人的所有性状信息只有通过基因数据的分析才能做到个性化医疗。

IBM光谱计算助基因测序提速又降价

不少人都认为基因测序高不可攀,在相当长的一段时间里,基因测序对于普通人而言都有点“高大上”,形成这一刻板成见最大的原因就是基因测序高昂的价格,正是这一点将一些想做基因测序的普通大众拒之门外,基因测序的路需要IT技术的帮助才会普及。

大约20年前还没有高通量测序技术的时候,人类基因组的测序预算约为1美元/碱基,一个基因组要30亿美金。当时甚至在美国各地建立了基因组测序工厂,雇佣了上千名员工,用五年时间来测一个基因组。当第一个人类基因组序列完成的时候,还没有高通量测序技术。而如今我们的人类基因组参考序列(hg19),几乎都是来自于那一次测序。

到了2005年前后,第二代测序技术开始涌现出来。成本下降几万倍,为基因组学研究带来了巨大的影响,首先是千人基因组计划(1000 Genomes Project),并带动了生物信息学的发展,数据爆炸就需要更高效地分析比较来挖掘出更多深层次的结论,比如SNP、单倍型等等。这些影响持续至今,已经变成基因组学研究的主流。

业内人士曾表示:基因测序的瓶颈不在精度,也不在速度,而是在保证一定精度和速度的条件下,想尽办法减少测序成本。现在大部分的测序技术的准确率已经达到99.9%,最低也能达到98%,准确率已经不是问题。而速度这个参数与成本相比,不值一提。“为什么还要开发新的方法?因为还不够便宜!”目前,全基因测序已经基本达到1000美元/人,捕获测序的成本更低,在国内的收费3000元——10,000元人民币不等。

人的基因组这本蓝图,决定了每一个个体的几乎所有生理与疾病状态,基因测序的终极解决方案就是全基因组测序,把这本蓝图巨细无遗地全部解读出来有三大障碍需要突破,除了数据解读需要科研、临床和商业的共同努力之外,速度和成本都是技术厂商可以解决的。

让高大上的基因测序进入寻常百姓家,人类需要更加强大的高性能计算利器。IBM光谱计算为医院科研免除高性能计算之忧,为基因测序技术普及带来曙光。IBM Spectrum Computing从四个方面满足基因组数据分析需求:

提升数据分析速度:IBM Spectrum Conductor面向云应用和开源平台,能使日益复杂的应用实现资源共享,提供覆盖整个数据生命周期的保护与管理,从而提升数据分析结果获取速度。

整合Apache Spark:IBM Spectrum Conductor with Spark能够简化开源大数据分析平台Apache Spark的部署,将其分析速度提升近60%。

加快研发与设计速度:IBM Spectrum LSF是一个全面的工作负载管理软件,其灵活便利的界面使企业得以利用升级的资源共享和资源利用率,将研发与设计速度提升近150倍,同时控制成本。

更高性价比:作为能力升级的软件定义计算解决方案,它将与IBMSpectrum Storage软件定义存储产品家族形成互补。IBM Spectrum产品组合将为企业客户提供一系列独特的软件定义基础架构功能。

更低的成本意味着更高的通量也就是更多的数据,也就可以做更多的事,还可以用于更多的人。测序范围从一个时间点到贯穿一个个体的整个生命周期,再从个体到群体,庞大的数据量可以让研究人员发现很多以前发现不了的规律,而绝大多数新发现应该都是从客观规律推出的(理论物理除外),测序成本每降低一个阶段,研究人员就可以获得更大数量级的数据,也就可以做更多的事:从人类基因组计划,到HapMap计划,再到千人基因组计划,期间还有各种诸如COSMIC/TCGA/encode等大项目都是伴随着成本下降而逐步开展的,相信随着测序成本进一步下降肯定还会有更多新的基因组项目开展。那么当测序成本降到一个临界值的时候则很可能会带来生命科学研究的井喷时代。IBM光谱计算不仅帮助企业客户提升计算资源管理能力,也加速了企业客户分析结果及数据洞察的获取,让过去“高大上”的基因测序真正走进“寻常百姓家”。

转载请注明出处:HC3i中国数字医疗
【责任编辑:孙杨 TEL:(010)68476606】

标签:光谱计算  IBM  基因测序  
  • 分享到: