- 2017-11-15 10:33
- 作者:佚名
- 来源:HC3i中国数字医疗网
· 企业名称
EMC易安信电脑系统(中国)有限公司
· 企业简介
EMC是支持企业和服务提供商转变运营方式并提供“信息技术即服务”(ITaaS) 的全球领军企业,在全球范围内大约有 70,000 名员工,在全球 86个国家/地区设立了大约 400个销售代表处,拥有世界上人数最多且专注于信息基础架构的销售和服务队伍。
多年来EMC一直致力于为医疗机构和生命科学组织提供最先进、最全面的数字化医疗信息系统解决方案,通过全球领先的云计算、大数据、信息安全技术和众多的行业专家帮助医疗客户实现IT转型、业务转型和业务创新。
· 申报项目名称
医疗数据湖解决方案
· 项目基本信息
【用户范围】医疗机构和生命科学组织
【适用平台】医疗大数据平台
· 申报项目详情概述
【项目背景】
背景及意义
当前,我们正从移动互联时代开始进入到大数据时代。IDC预计,未来全球数据总量增长率将维持50%左右,到2020年全球数据总量将达到40ZB(40万亿GB),其中,我国将达到8.6ZB,占全球的21%。在健康医疗领域,大数据与医疗产业的深度融合将给健康医疗模式带来深刻变化。
在大数据时代,数据的价值逐渐体现,特别是医疗相关数据的价值更是受到了各方的高度关注,政府及各医疗机构都清楚地认识到数据是最宝贵的资产、是未来的核心竞争力。如何利用好数据采集技术、清洗技术、分析技术、展现技术和存储技术,发掘数据价值,是医疗信息建设的重中之重。而数据湖是大数据汇集、处理和应用的基础设施,只有将数据存储在数据湖中才能更加高效、安全、低成本地实现数据掘金。
方案内容简述
数据湖最早在2011年由CITO Research网站的CTO和作家Dan Woods提出。经过多年的发展,符合下面两个特征的基础架构特征可称为数据湖:
可以存储非结构化、半结构化、结构化等任意结构数据的并行系统;
数据的存储、清洗、分析、展现、管理都在一个平台内完成,无需数据迁移;
EMC数据湖可存储一个或多个医疗机构的所有医疗相关数据,医疗组织可以实时地对数据湖中的数据进行快速分析,为治疗、管理、科研和教学提供支持,EMC数据湖的特点包括:
· 消除数据孤岛,传统上,当增加新的数字化应用或数字诊断设备时,医疗机构为每个应用程序或诊断设备提供专用的存储基础设施。例如,为了处理PACS系统日益增长的存储需求,医院会单独为放射科创建一个新的存储系统。其结果是,各个应用系统都有独立的存储设备,形成物理上割裂的数据孤岛。这些数据孤岛只能被单独管理,从而使得基础设施变得复杂,运营和扩容更加昂贵;
· 简化数据管理,随着医疗相关数据量的急剧增加,数据湖提供一种简便、安全、易管理、易扩展的大数据存储架构,在数据生命周期内进行对海量数据进行高效地管理和利用;
· 降低成本,由于医疗数据蕴含巨大的价值,因此大部分数据都需要长期保存,随着数据量的增加,数据长期保存的成本也越来越高,而数据湖能显著降低数据保存的总拥有成本;
· 发掘数据价值,数据只要整合到一起才能被有效利用和发挥最大的威力。各种结构、各种应用的数据可以通过多种协议汇集到数据湖中,并可在不迁移数据的前提下,对湖中的数据进行大数据分析和利用;
· 实现数据共享,数据汇总后,对数据分享十分有利。各个医疗部门可以在数据湖中根据需要和对应的权限找到所需的数据;
· 便于医疗协作,当各个医疗机构的数据通过数据湖汇总后,便于开展部门间、医院间、地区间的医疗协作、科研协作;
科技优势利用:
目前,Hadoop是最常用的构建数据湖的技术,但Hadoop和数据湖的不同点在于数据湖是一个概念,而Hadoop是用于实现这个概念的技术之一,这也是大部分大数据处理平台都采用Hadoop技术的原因。和传统的Hadopp架构相比,EMC数据湖具有以下优势:
分析数据时无需进行迁移和导入;
数据保护只损失20%左右的存储空间,而Hadoop会损失200%的存储空间;
提供数据消重功能;
支持面向对象访问;
提供多协议访问;
同时提供多Hadoop版本支持;
支持数据分层;
支持数据容灾;
应用场景及技术方案:
EMC有两种产品ISILON和ECS用于搭建数据湖解决方案。可以单独基于ISILON或者ECS搭建数据湖,也可以两种产品同时选用,用户可根据不同的业务场景和数据规模进行选择。
ISILON和ECS自带Hadoop属性,通过它们搭建Hadoop平台的最大好处就是实现了计算和存储分离的架构,这种架构不仅能克服传统Hadoop架构的不足,在进行大数据处理时无需进行长时间的数据导入工作,实现数据就地分析,从而大大提高数据分析效率,降低数据分析和保存成本。
· 经济效益与社会效益
某大型三甲医院,日门诊量1万以上,现有床位4000张。近年来,该院PACS数据、电子病历、病案翻拍等数据高速增长,同时科研和教学产生了大量的非结构化数据处理和文件共享需求。为解决PB级别数据的存储、管理、科研、共享等需求,该医院基于EMC ISILON构建数据湖平台,将全院包括PACS、B超、心电、病理、文件等所有非结构化数据全部存储在ISILON上,一期容量为1个PB。数据湖平台建成后具有管理简单、使用简单、扩容简单的特点,数据通过NFS/SMB协议存储到数据湖平台中后,可以通过FTP、REST API、HDFS等多种协议访问,供医疗、教学和科研等多个不同的应用使用。
· 项目创新情况简述
EMC ISILON数据湖平台具有以下创新:
集中存储所有非结构化数据,各种影像、视频、文档、病理、基因数据都可以集中存储在ISILON上;
提供多种Hadoop版本支持,无需迁移数据,可以直接从大数据管理平台升级为大数据分析平台;
消除大数据孤岛,在一个平台上可以同时运行肿瘤大数据、基因大数据、影像大数据、临床大数据等多个大数据应用,无需为每个大数据应用建设配套专用的存储基础设施;
简化数据生命周期管理,EMC数据湖具有自动存储分层和云归档功能,热数据可以分布在高性能存储介质上,冷数据可根据策略自动迁移到低成本存储介质或者迁移到云中;
快速扩容,多维提升,数据湖平台可在1分钟内完成在线扩容,并实现容量和性能的同步增长;
多级容错,确保安全,EMC数据湖具有多级容错机制,可以灵活设置多种数据保护策略,防止多块盘或多个节点同时损坏,带来的业务中断和数据丢失;
管理创新:
EMC数据湖实现了未来数据中心计算和存储分离架构,通过将所有的医疗数据存储在一个平台内并进行分析和保存,解决了医疗机构在开展大数据应用时产生的大数据孤岛问题,可以在一个平台内统一管理多个大数据应用,不仅能提高大数据分析效率,还能显著节约管理成本和使用成本。