当前位置:首页 >>行业技术>>正文

浅析医疗大数据与Hadoop技术

来源:中国数字医学     发布日期:2019-07-30     点击数:31[打印本页]

IT到DT的演变

说起软件开发,从最早的VB、Delphi无所不能,到3P(ASP、JSP、PHP)刮起浏览器B/S旋风,JAVA三驾马车SSH(Spring、Struts、Hibernate)垄断企业级应用市场,以往一个程序猿掌握一门绝技就可以颐养天年。随着大数据和人工智能发展,最显著的特点是客户从关注应用功能逐步转变为数据价值挖掘,IT新技术扎堆涌现进入全民造轮子时代,这边Facebook刚开源了Hive,那边Twitter就开源了Storm,接着Linkedin开源了Kafka, 大有你方唱吧我登场之态势。这些新技术层出不穷,共同特点是免费,不过每种技术一般只能解决一个特定场景问题,而DT时代偏偏是一千个人眼里有一千个哈姆雷特,直接导致的后果就是996越来越多,程序猿的头发越来越少。

Hadoop怎么成了“妖怪”?

Hadoop便是这十年中影响力最大的轮子,甚至可以称得上一首航空母舰,几乎是大数据的事实标准和代名词。但最近Hadoop的日子有点不太好过,先是 Cloudera 股价暴跌估值缩水,与Hortonworks 合并抱团取暖,接着MapR 关闭硅谷总部,后被惠普收购。而国内看衰Hadoop的声音也持续高涨,大有墙倒众人推,破鼓万人捶的局面,甚至连医疗大数据这片处女地也开始讨论Hadoop技术的适用性。Hadoop从人间宠儿瞬间转变为“杀人不眨眼,吃人不放盐”的妖怪,确实有点让人猝不及防。

 

Hadoop的前世今生

先说说Hadoop怎么来的,它既不是灵珠转世,也不是石猴显灵,甚至赖以生存的“分布式”理念也是几十年前就老生常谈的理论,它在2006年为人们熟知前只是Doug Cutting儿子手中的大象玩具。而它最伟大的地方就是让高性能计算不再是高端研究机构的独有专利,将分布式计算平民化,妈妈再也不用担心昂贵的性能了。所以仅仅一年Hadoop就成为Apache顶级项目,而且每年Hadoop生态圈组件呈现几何级增长,热度持续高涨,拉开了全民大数据处理的长河。

 

Hadoop发展编年史


Hadoop的问题到底是什么?

我们不能简单的把 Hadoop 理解成一款产品,更甚至理解成一种数据库,它是一种生态,或是一个框架,甚至是一个思想,它既能三头六臂,又能海纳百川。通过近10年的生态发展,涌现出上千个基于Hadoop的组件,这些一般以动物命名的东东涵盖了:数据存储、数据采集、内存计算、机器学习等各个领域,只有你想不到的技术,没有找不到的组件。 



Hadoop 真正面临的其实是生态之争,而不是某款产品之争。大数据领域的其他开源供应商(如 Elastic 和 MongoDB 、GureenPlum、TIDB等)与 Hadoop 并不构成竞争关系,甚至连重合点都很少。MongoDB 、Elasticsearch 真正竞争的是 Hadoop 内的生态组件,例如 HBase、Hive、Impala 等,但这些技术本身都提供对应的Hadoop Connector,都可以整合在Hadoop上,所以替代Hadoop更是无稽之谈。Hadoop在国外被看衰的直接原因是自身运维成本较高,而随着云技术的蓬勃发展,大部分企业更愿意选择直接购买云计算这种整合好的服务,而不是花费成本去搭建维护大数据平台。但是这种情况对国内大部分实体经济的企业,例如医疗、制造业、金融业、政府等强监管行业,还远远没有达到把企业全量数据存放到公有云的阶段,甚至会出于数据安全的考虑,永远不放在公有云上,所以Hadoop并不是万能的,但也不是万万不能的。


先有鸡还是先有蛋?

再说说医疗大数据分析这件事,近年来到底是先有业务场景再利用数据,还是先整理数据再扩展应用场景?这个问题成为HIT界争论的焦点。在回答这个问题之前,我们先看看“大数据分析“的几个特点:

1,大数据分析更多的强调“全”,而不是数据量“大”,核心是对所有data的处理,而不只是随机样本的分析;

2,大数据分析强调的不是对因果关系的渴求,而是发掘数据之间的关系;

3,处理big data的简单算法所呈现的事实,往往比分析small data的复杂算法所得到的背后原因,带来的效益和价值更大;


其实医疗行业现在数据分析更多的依旧是处理报表,以及基于人脑假设而进行的数据验证,大多停留在描述性统计层面,从这个角度讲,数据分析更难的是业务,而非技术本身,所以选择什么技术并不重要。但是当业务复杂到人脑无法有效预估相关因素和行为时,或者进行随机式数据处理(无法预知性研究)时,大数据分析真正的价值就体现出来了,利用机器学习和人工智能等技术手段,逐步构建和完善知识图谱,自动识别数据关系,自动深度学习,实现预测型分析,才是大数据真正的魅力所在。比如海关征收关税,正常已经维护了很多的征收标准,当物品种类越来越多时,靠人工不断增加征收标准已经成为不可能实现的任务,利用机器学习可以自动分辨物品属性,生成特征画像进而更新关税规则,当海关工作人员对一件新的物品进行了征收关税的操作后,那么以后和这个物品相似的物品都会以同样的规则征收关税。


从短期投入上,按需进行数据治理成本较低,从长期来看,先构建大数据平台将成为后期医院的宝贵财富。想起很多年前,HIT业内一直在争论虚拟化的必要性,当时反对者主要担心生产系统虚拟化后的性能问题,以及虚拟化投入产出较低,还不如购买服务器划算,但现在还有几家三甲医院没有上虚拟化?虚拟化不一定能解决所有运维问题,但至少很多场景下给我们多了一种选择。


医疗大数据分析的难点

医疗大数据喊了很多年,甚至从大数据诞生以来,医疗大数据一直是最被看好的大数据主战场,但是这么多年过去了,医疗大数据的落地场景已经远远落后其他行业,这里面的原因又是什么呢?

 1,基础数据质量太差,医疗数据除了一大堆自由文本难以处理外,还有大量的手工录入数据,以及不同时期随着政策调整而增加的数不清的标识和数据前缀,这些数据处理起来的技术倒不复杂,但消耗人力却极大。

2,数据逻辑关系复杂,逻辑关系不仅仅体现在数据关联性差,还体现在数据的重复转抄,检验系统从HIS接收申请单后按自身规则将申请再存入一份,医生书写病历除了主观描述外,其他大量数据是从检查、检验、护理等系统转抄而来,即便现在大多依靠病历助手实现引入,多源数据的不确定性导致很多时候计算一个指标真的不是口径那么简单。

3,由于医学本身的复杂性和不确定性,将医学本体全部用三元组实现图谱化,显然太过理想。而现实情况是由于相关标准的缺失,连最基础的字典和主数据都无法做到院内统一,各个系统自成体系,导致数据的实体融合和关系发掘困难重重。

4,顶层设计缺失,大多医院业务系统都是头痛医头,系统上线和改造缺乏统一的架构设计和顶层规划,这么多年下来一直就是打补丁的模式,补丁少了是时尚,补丁多了遮风挡雨没问题,却怎么也穿不出高大上。

5,人员能力和管理欠缺,医疗大数据分析对人的综合知识要求极高,需要具备医疗业务、IT技术、统计学、逻辑思维等多种技能。当前很多互联网公司涉猎医疗大数据,这些公司IT技术和统计都不是问题,但最大的问题就是从一开始就怀揣改变世界、取代医生的伟大理想,大多飘在云端。而传统医疗IT公司沉迷于医院业务系统,思维方式局限,大数据技术人才缺失,进展缓慢。很多医院虽然陆续成立大数据中心,但本身的数据管理体系和技术体系并未真正建立,不管选择互联网公司合作还是传统HIT公司都存在巨大鸿沟。


Hadoop到底是否有必要?

回到本文的主题,医院大数据是否有必要选择Hadoop?这是一个仁者见仁、智者见智的话题,个人认为 Hadoop在企业大数据层面有它独有的优势,下面就列举一二:

1,如果从大数据分析的成本考虑,在分析上花费的精力占不到30%,大部分工作其实是数据准备和处理。医院的数据当前虽然并不是特别大,但是频繁搬运数据和处理的难度也非常大(回忆一下十几年前我们盯着屏幕对蚂蚁快车十几k下载速度的绝望)。尤其是搬运过程中如果没有元数据支撑,数据无法溯源,后期的准确性和置信度也存在问题。而Hadoop在一个体系内将数据集中在数据湖,内部解决搬运和处理的所有问题,而且数据湖的优势就在于数据持续集成和优化,这点是其他单个技术所无法比拟的优势。

2,随着5G技术普及,未来远程监测设备和智能穿戴设备将大大普及,未来医疗数据的广度和量级会极大提升,数据的实时流计算就变成刚需。举个例子来说,当前医院的ICU系统只是间隔性采集部分生命体征,为什么不需要所有数据采集?因为每个床位都有固定护士持续轮班看护,机采数据本身并非不可替代。但是如果扩展到院外的大量远程照护和持续性健康监控的患者,护士是看不过来的,这就需要实时流数据处理,不断实时接收海量体征数据,实时分布式进行计算,识别状态异常和需要干预的患者。实时流处理涉及到多种技术的混合使用,Hadoop插拔式的组件机制提供了更方便的使用体验。大数据本身并非不可替代,但为不可能提供了更多可能。

3,大数据时代人的思维边界受到极大挑战,如果每个具体分析业务都像原来一样从需求分析、设计到实现的瀑布式步骤,先不说成本大小,很多脑洞根本就没开,谈何突破。而越来越多的互联网行业已有的成型分析思路和方法,很多都值得其他行业参考,就好比站在巨人肩膀上进行二次创造一样,能省去大量的基础验证和研究工作,而这些互联网公司大多的实践经验都是基于Hadoop生态体系的,开箱即用的可能性比其他技术要大的多。

4,传统的推荐系统只处理客户的事务数据(transaction data),大多用的是数据仓库或商业智能等解决方案。为医生推荐治疗方案,基于论文和指南推荐是初级阶段,基于既往病例深度学习推荐是中级阶段,而如果能把患者入院前的社交生活数据,及长期饮食和持续监测数据都纳进来,则所产生推荐的精准度与丰富度必然可以大为提高。由于社交和生活数据的型态与事务数据间有极大的差异,其数量级更是远远大于事务数据量,运算频率更是有极高的要求,也因此都远超过现有数据库或数据仓储的能力,而这正是Hadoop所擅长,可以轻易拓展传统机器学习 (Machine Learning) 算法分析大量数据集 (Large Datasets) 的能力,并同时具备横向扩充 (Scale-out) 的能力,可随着数据集的增长轻易扩充,无论多大的数据都可轻易胜任。

5,就像“贵东西唯一的缺点就是贵“一个道理,Hadoop的使用门槛和运维复杂度确实比传统数据库高很多。但是个人认为这不足以成为抵制Hadoop的理由。任何新技术都有一个普及推广的过程,而且本身Hadoop生态中现在大部分组件都支持SQL查询及导出,对应的可视化工具也越来越丰富。至于运维复杂性,相信未来会有更多的人熟练使用,也相信未来会有更多的专业公司像维护云服务一样,提供全周期的Hadoop运维服务。哪吒电影中申公豹哀叹“人心中的成见就像一座大山,任你怎么努力也休想搬动”,我觉得既然搬不动,那就翻过去吧。


结语

有人说全世界知识更新最快的两个行业是医学和IT,而我们从事的是HIT,中国加班最多的两个行业是外科医生和互联网从业者,而我们向往的方向是互联网+医疗,HIT从业者与生俱来就是这么高(ku)端(bi),想低调都不允许。现在技术越来越多,选择越来越困难,依据自身需求和投入预算,量体裁衣进行选择没有错,不过有时候孩子太小长得太快,适当做大半号也未尝不可。乱花渐欲迷人眼,一半清醒一半醉,穿什么鞋舒服也许只有脚知道。