- 2023-04-12 15:56
- 作者:佚名
- 来源:HC3i数字医疗网
大数据时代,科学研究的方式正在发生变化。
中国科学院天津工业生物技术研究所肩负着建立我国工业生物技术创新体系、促进工业绿色升级的历史使命,在践行使命的过程中,一批科学家抓住大数据带来的机遇,积极推动科学研究方式的变革。
科学研究方式正在发生变化,因为数据变了
人类认识生命的能力非常有限。以前生物学产生的数据很少,做几天试验才能产生几条数据,“巧妇难为无米之炊”。随着基因组测序、蛋白组测序技术的发展,科研人员一度欣喜万分,以为可以通过分析细胞内的蛋白质组分,进而认识细胞的代谢过程。然而现实中测序技术发展产生的海量数据让科研人员无所适从:数据来源不一、数据标准不一、数据量太大...数据有很多,但是研究不了。数据给科研人员带来了多少希望,就带来了多少无奈。
以大肠杆菌为例:大肠杆菌里面大概有4000多个基因,其中只有不到一半有比较深入的认识,剩下的约2000个基因我们并不完全知道它的功能是什么。我们现有的知识图谱是静态的,而生命是动态的,知识图谱是怎样演变的,我们怎么去认识它......对生物的研究需要强大的计算能力和设计模型去模拟它。
“必须克服新时代的数据挑战,借助新时代的技术平台‘驯服’数据,让数据为我所用。”中国科学院天津工业生物技术研究所副所长王钦宏介绍说。
初尝“驯服”数据:用图数据库构建大肠杆菌调控代谢知识图谱
细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的代谢途径调控相互作用决定。通常不同类型的调控数据散落在各个不同的数据库,生物学家很难通过仅关注与所研究的代谢物/蛋白质密切相关的一两类相互作用来识别这种复杂调控级联关系。因此,将这些不同类型的调控相互作用汇集在一起,并提供方便的交互方式,将极大的方便生物学家挖掘和理解生物体内的复杂调控关系。
天津工业生物所生物设计中心马红武团队联合亚马逊云科技团队在计算生物学国际期刊《Nucleic Acids Research》(《核酸研究》)上发表文章,发布了首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer,首次提供了全局的代谢调控图谱,并通过可视化框架实现了丰富的搜索功能,如多步查询、最短路径查询等。ERMer采用专门为高度关联的复杂数据集的高效存储和查询设计图数据库架构,这打破了传统的低效数据检索方式,有效增强用户和图谱的人机交互,大大降低了使用门槛。
为充分发挥知识图谱的价值,生物设计中心团队还将进一步采用基于图神经网络技术进行推理,以实现转录因子预测和转录因子靶点预测等功能,这将有助于挖掘潜在的关键调控因子和调控靶点,构建新的调控代谢网络,能够为研究人员提供新的思路和方向。 此外,在面向微生物遗传操作上,天津工业生物所生物设计中心团队开发了第一个能够支持所有序列操作类型、任何基因组位点和跨物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。AutoESD 的开发采用了基于云端的无服务器架构,确保了高可靠性、稳健性和可扩展性,能够在几分钟内并行处理包含上千个编辑序列设计目标的数百个设计任务。
开发人员利用Amazon Lambda将不同的引物设计、同源臂设计等编辑序列设计模块封装打包,满足了具体功能的模块化开发要求,并方便地对功能模块进行管理和共享;利用Amazon Step Functions实现可视化的工作流管理,实现了编辑序列设计工作流的串联,从而实现应用的快速构建和更新,同时快速查询处理异常任务;利用Amazon DynamoDB提供毫秒级的动态资源响应性能,并自动扩展所需资源以应对增加的业务需求。这些Serverless服务帮助天津工业生物所团队进一步简化运维,使得开发人员可以专注于业务代码和创新,与传统开发方式相比,开发时间缩短了75%,总体拥有成本降低50%。
“驯服”数据的背后:跨越科研与数据对话的鸿沟不容易
生物工程研究需要云技术支撑,但当中国科学院天津工业生物技术研究所生物设计中心团队广泛接触各类云的提供方之后发现,如何让对方听懂自己的需求给出合适的解决方案是一个巨大的挑战。
生物设计中心主任马红武的知识体系是复合型的,学化工、学生物、学计算机,跨越国界的进修之路让他对交叉学科研究有了一定积累,并在早期建立了对云科技的基础认知。中国科学院天津工业生物技术研究所生物设计中心副主任廖小平同样是有交叉学科背景的,他的学术背景侧重数学、计算和生物,在生物研究中,他要用数学框架把不同的分子、不同的相互作用整合在一起,而不是光把数据放在数据库里,比如图数据库就是把它们之间相互作用关系整合在一起了。
即便身为“甲方”的两位专家已经具备一定的数据认知,他们在云的选型阶段还是遇到了沟通难题,“这个过程是痛苦的,因为彼此专业背景不同,常常是自说自话,沟通真的很困难。”马红武回忆说,亚马逊云科技是个例外。
亚马逊云科技中国区商用与公共市场事业部总经理李晓芒表示:“在最早合作的时候,客户的需求聚焦于科研的一个场景,因此提出的需求专业化程度非常高。”针对客户的特点亚马逊云科技提供了一系列支持,比如:在早期的沟通中,把内部很多培训材料、方案尽量转述成用户能够理解的生物信息角度或者一些专业的名词、术语,通过这种方式,让客户能够以他比较擅长的“语言”去接受和理解亚马逊云科技的服务。在亚马逊云科技内部还有很多生物专家、生物信息专家、计算化学专家等,这是他们和客户可以建立沟通的一个很基础的、很重要的桥梁。
写在最后:“驯服”数据的竞赛或许即将开赛
成立十余年来,中国科学院天津工业生物技术研究所形成了全链条的国家级创新科技平台。“我们的核心就是工业生物设计,但同时离不开计算能力的提升。”王钦宏副所长强调说,要设计好工业生物,需要IT技术的支撑。
生物设计中心团队中正在引入越来越多不同学科背景的学生,他要培养人才、选拔人才,把有计算背景、数据背景的人才积累起来,为下一步“驯服”数据服务工业生物设计做准备。
放眼其他领域,谁家没有数据呢?如何让更多研究领域有机会、有能力“驯服”数据为我所用,这是否也将成为下一阶段各领域科研突破的一道门槛呢?