您所在的位置:首页 > i医疗 > 智能医疗大数据 >  年数据量30PB,没有HPC基因大数据企业靠什么赢?
年数据量30PB,没有HPC基因大数据企业靠什么赢?
  • 2018-09-07 15:54
  • 作者:尹聪颖
  • 来源:HC3i中国数字医疗网

“过去做一个人的全基因组测序需要10亿美金,几年前测一个人的基因组需要1万美金,现在大概只需要1000元美金。测序成本降速是非常快的。”诺禾致源副总裁吴俊告诉HC3i。

几年之前,从接到样本到完成测序需要7、8天,一台机器采集的数据量是200G-300G;现在测序量只需要2.5天,一台机器采集的数据量是6TB。

从诺禾致源发展轨迹,管窥中国基因测序产业2000家公司成长

公司经过7年的发展,诺禾致源公司人数达到了1800多人。国内除总部北京外,现有两个生产基地,一个是在武清,一个是在南京。

围绕着测序现在有三个业务方向:

第一,科研服务。也是现在占比最大的一项业务,服务的内容是为大专院校、医院、药企提供科研测序的服务,从测序到后续的数据分析,最后给到客户分析报告,方便客户根据相应的实验设计挖掘出数据具体的生物学意义。

第二,肿瘤检测。诺禾致源是国内第一批获批基于测序技术对肿瘤耐药基因进行检测的机构。第三,遗传病筛查。诺禾致源主要提供新生儿筛查,对新生儿做基因方面的检查技术服务。此外,针对临检企业级的客户诺禾致源提供的测序服务主要是缩短测序周期。

2011年,不管是做遗传病、做肿瘤,还是做科研服务,国内相关行业只有十几家左右的公司,现在再看中国相关方向有2000多家公司。“这个市场非常热,接下来前景也是非常广阔的。”在此前的融资评估中,诺禾致源B轮估值超过70亿元。

年数据量30PB,没有HPC基因数据分析企业靠什么赢?

对照计算机的摩尔定律,整个的测序成本降幅速度是远远超过摩尔定律的。测序成本降的那么快,测序量又不断增大,计算问题是如何解决的呢?

“工欲善其事,必先利其器。”联想数据中心业务集团制造行业总监许子牛说。

诺禾致源目前在国内外共有60多台测序仪,每台机器采集的数据量是6TB,预计2018年的整个数据量是30PB。如何解决计算问题?吴俊说,“通过对比自建IDC机房和公有云,我们认为在计算量相对稳定的前提下,计算量和数据量这么大、I/O读写速度非常高,选择自建机房的成本相对最节省的。”

玩转基因数据,抢先机占领未来高地并不是每个医药企业或机构能够理解的。许子牛认为,“在很多的业务领域都是需要超算的,包括生物制药、基因测序、精准医学等等,但很多企业不去做,为什么?因为其他的企业缺少技术专家去找到有效的技术实现方式,所以他们退而求其次,用其他的方式牺牲一些研发的周期和成本来解决这件事情。”

病人有一些疾病着急用药,测序环节需要2.5天,分析还需要3天,一周时间就过去了,还要分析报告,这个时间是按周这样的时间来计算的。我们对分析的要求以及对计算的效率和计算速度比以往要求都越来越高,我们希望得到测序结果之后的分析最好能在1个小时之内完成。现在可以通过软件的方式做到,但会影响到结果的准确性,最好的方法是通过加强计算的能力来缩短时间,因此,高性能计算是不二之选。

可市场不会等着谁,在同等质量下,更快的数据分析报告势必更加获得医患青睐,尤其是在肿瘤检测方面。因此,无论是从生产效率还是客户需要的角度去考虑,HPC都是基因数据分析服务提供商在未来竞争中必备的“武器”。

计算虽好但成本并不低,如何实现?

现在基因测序的数据中心不像传统IDC的数据中心是建在内蒙古等区域,对于单位能耗、对于节能有很大的需求,而是建在重点的中心城市。

“对于测序服务提供商来说,数据量比较大的时候,怎么样在短时间内出报告,这肯定是很关键的。”吴俊介绍说,因为测序中心和计算中心不能超过100公里,超过100公里肯定会有时间和数据质量方面的损失。

联想通过技术优化以降低用户的使用成本。“我们在做超算的时候不仅是在卖产品,其实是在提供一个服务平台,比如:工具是可以租赁的,测序机构不需要等到攒够钱再来买计算。“许子牛解释道,基因测序行业这么快速的发展,联想在服务和销售、金融手段上也做了很多工作。

在生命科学领域,联想HPC为生物科学领域海量数据的研究提供超强计算能力和大容量存储服务,帮助国内外医疗机构的癌症、大脑研究。以诺禾致源为代表,联想为其提供了完整的测序数据分析服务,对数据进行自动解析,重新发现很多有用信息,实现基于预测功能的软件运行速度提升,同时还提升了对CPU的利用率。

长期以来,高性能计算的发展水平一直是衡量国家综合国力的重要标志。特别是近几年,其应用领域也得到了极大拓展。在日前召开的以“突破算力 决胜未来”为主题的2018联想全球超算峰会上,联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧在致辞中表示,人工智能、基因测序、气象海洋预报、仿真模拟、军事装备研究等诸多领域,都在利用HPC的强大计算力推动民生与国民经济的不断升级。联想作为全球最大的HPC解决方案供应商,将自主可控、产业报国作为核心价值观和业务战略,坚持以科技创新推动民族产业升级。

基因产业将迎来更大的数据,计算性能将是最大瓶颈

当前的基因测序研究中,我国5年要做10万个全类基因测序,新加坡政府前期要测1万人,“我觉得至少要在百万级别以上的样本量才会得到很好的结果,当前的数据量级和我们想象中的数据量还是相差很远的,数据计算能力是不够的。”吴俊说,随着数据量越来越大,计算的性能对我们来说将是最关键的问题。

而对于其他基因测序、医疗大数据分析机构来说,今天如果还在用简单的替代方案,明天又将如何迎接更加猛烈的数据挑战呢?

转载请注明出处:HC3i中国数字医疗
【责任编辑:聪颖 TEL:(010)68476606】

标签:HPC  基因大数据  
  • 分享到: