随着国家近几年来对医疗健康大数据发展的不断探索与建设指导,医疗健康大数据得到全所未有的发展机遇,同时也面临许多建设瓶颈待进一步突破,可谓是是挑战与机遇并存。一方面仍面临着数据清洗、收集、标准、隐私各类疑难问题,另一方面市场完全没有达到饱和,发展前景十分广阔。
本文主要从技术层面、业务应用、环境要素等三方面来剖析医疗健康大数据建设过程中的痛点,具体分析情况如下。
一、技术层面
医疗健康大数据的开放利用,重点在于数据。要获取高质量的医疗大数据,必须克服在数据采集、数据清洗、数据存储、数据处理等过程中遇到的技术难点。
(1)数据采集
医疗健康大数据来源广,医院数据、基因数据和健康数据,医院数据在规划和数据质量上最具竞争力,基因数据和健康数据是增速最快的数据类型。此外,业务信息系统繁杂,彼此相互独立,技术规范、基础信息数据标准不统一和缺失,医疗数据普遍不能互通互认,变成了“数据孤岛”。数据“大而多”,但质量难于保障,体现在数据不可追溯、不完整、结构化缺失,同时也不是优良、可评价的。
(2)数据清洗
数据从多个业务系统中抽取而来,而且包含历史数据,这样就避免不了错误数据、重复或是无用的数据,按照一定的规则把“脏数据”洗掉,但是医疗数据存在不规范,无标注等现象,数据清洗过程中无法识别医疗数据背后的业务特征,影响数据的有效性。
(3)数据存储
医疗健康大数据的数据规模庞大,通常可达到PB级的数据规模,海量数据存储一定要有相应等级的扩展能力,指数型增长的数据会对业务基础架构带来挑战,现阶段下的大数据架构并未能达到这样的能力,需要合适的工具来优化现有基础架构。海量的医疗大数据应用,需要对数据进行实时或准实时的处理、秒级的查询和调阅,这需要多项技术配合,不断优化算法,提升系统性能,满足数据处理能力。
(4)数据处理
数据处理利用,需要对海量数据进行结构化,透过数据挖掘背后的联系,发现隐含的规律信息,将业务和数据实现有效的整合,通过影像识别、深度学习、自然语义分析等多项核心技术,才能为医疗机构提供数据处理服务,但由于算法复杂,计算量庞大,基于“大数据”的业务建模艰难;统计与分析的工具缺失,多样性和异构数据无法进行可视化的展示。
二、业务应用
医疗健康大数据应用场景虽然十分广泛,如药品研发,精准医疗,医保控费,个人健康管理,AI诊断,保险等,但大数据在应用各环节仍存在令人思考的痛点。
(1)药品研发
药品研发需要庞大的数据作支撑,医疗大数据可以为新药研发提供方向。医疗数据为药品研发提供大量且详细的疾病发病率、患病率、疾病负担、并发症、诊治情况等,但大数据不会因其数据量多就更可靠,数据的不可靠性、数据质量问题导致药品研发失败,与经过严谨科学试验获得的“小数据”相比,大数据可以是有力的补充,但不能替代“小数据”;数据能够说明问题,但不能说明一切问题,大数据预测的更多的是提供一种在概率上更精确的评估模型,而最终将这些预测结果与未来挂钩并作出决定的还是人类。
(2)精准医疗
精准医疗最大的难点在精准治疗,而精准治疗的难点既有如何针对特定的人群研究出有效的治疗方法,还有如何保证治疗方法在经济上可行。精准医疗是一个多学科融合的学科,是包括病理科、影像科、分子医学、遗传学、计算科学等领域的综合;从数据的维度来看精准医疗,包括数据的采集、数据的互联、数据的分享,以及数据的计算和分析。同时,它也包括数据的标准化、隐私和安全问题。
(3)医保控费
只有通过对大量的病历数据、随访数据分析,才能够精确了解各类疾病的治疗费用、地区差异、患者迁徙等信息,并以此制定支付标准,数据的不全面,成了当前医保控费一大痛点;同时,医疗大数据分析还可以有效识别过度医疗、重复检验、大处方等医保基金浪费现象,帮助制定更合理的医保报销政策。
(4)个人健康管理
借助物联网、智能医疗器械、智能穿戴设备,实时收集居民的健康大数据,通过对体征数据的监控,实现健康管理。客观、科学地衡量和评估个体健康,离不开对各种主、客观数据的采集,健康数据属于民众隐私数据,难于获得全面的数据;对个人健康数据进行全面分析,给予健康管理方案,需要对庞大的人群数据进行分析学习,才能给予更精准健康管理方案。
(5)AI诊断
AI诊断的基础是拥有庞大的医疗数据体量,但由于医疗数据的隐秘性、敏感性,能够用于模型训练的数据甚少,给AI诊断带来了更大的难度;另外,医疗业务模型建设艰难,诊断模型是知识和经验分开建模,而医生很多时候既依赖于对知识的判断又依赖于对相似病例的联想推理,除了依赖于病例的文本数据,还依赖于医学影像、实验室检查检验等不同形态的数据,传统模型无法解决这个问题。
(6)保险
通过大量的疾病发病率、治疗效果、费用等数据的帮助,才能制定出合适的保险产品,降低保险公司成本。保险产品设计与获客能力依赖于丰富的医疗数据,根据个人病情、信用记录等进行精确定价。由于无法获得全面的医疗数据,不能精准测算保额;通过大数据进行反欺诈侦测,审核诊断和治疗全过程,核对患者的症状、化验结果和检查报告,与医生的诊断结果是否一致,与处方是否一致,才能更彻底地防范骗保,落实风控。
三、环境要素
现阶段医疗健康大数据发展缓慢,局限于政策、安全、开放、业务属性等方面,正视并解决这些问题,才能真正意义上的发展医疗健康大数据事业。
(1)政策
医疗健康大数据应用发展将带来健康医疗模式的深刻变化,国家也积极在促进和规范医疗健康大数据应用发展,颁发许多发展医疗健康大数据的政策,推动医疗健康大数据融合共享、开放应用。对于医疗健康大数据的利用,国家采取“包容审慎”的态度,在医疗健康大数据的标准方面,由谁来制定、谁来提建议、怎么制定和应用等都未落实明朗;健康大数据使用一直是敏感问题,涉及到安全及隐私,作为基础性制度的数据确权和共享细则还未明确,部分数据开发处在灰色地带。综上所述,需要积极推动相关制度、政策、标准的拟订,为医疗健康大数据发挥惠民、惠企、惠政的巨大作用创造条件。
(2)安全
医疗健康大数据的应用发展,既要为数据应用做好技术准备,又要保障数据安全。对于医疗健康大数据的安全和个人健康医疗数据相关的隐私保护,得高度重视。数据的泄露会导致个人隐私信息丢失,这也是健康医疗行业数据之难的痛点所在。大数据的利用,“脱敏”、“去标识化”是否安全可靠,这仍是一个疑问。
(3)开放
医疗健康数据的开发,应仅应该用于改善医疗,不应该存在盈利目的。健康医疗数据一旦开放共享,必然伴随着个人身份和隐私信息泄露的风险,另外,数据保密性