1.2 医疗大数据本质

1.2.1 医疗大数据产生的背景

一方面,大数据时代的到来为现代医学的发展带来了前所未有的机遇,网络大数据使人们获得了前所未有的大规模医学数据。医疗机构开始利用信息技术将越来越多的医疗数据电子化,并以不同的形式和结构存储起来。各类医疗信息系统数据,加上医院与医保的结算与费用数据、医学研究的数据、医院药物采购与使用监管数据、居民的行为与健康管理数据及政府的人口与公共卫生数据,构成了医疗卫生领域大数据的初期数据资源。另一方面,现代医学的发展也带来海量的数据,如现代医学除了常规收集的患者信息量非常巨大以外,基因组学、蛋白质组学、脂质组学、表观遗传学、代谢组学、转录组学等数据规模也同样庞大。这些规模庞大、动态性强、复杂性高、种类繁多的数据为我们综合分析、挖掘每位患者病理学、生理学和病理生理学等数据提供了充足的样本。

医疗大数据的合理利用能提供巨大的产业空间和社会价值。首先,大数据能够极大地增强医生和医学研究者获取新知识的能力。主观地从不同结构的数据中寻找问题的答案的代价是很大的。通过大数据分析技术自动化处理医疗数据,例如,通过自然语言处理技术对医疗文本报告进行分析,能够提取有效的信息。其次,大数据的应用更有利于知识的传播。例如,在面对一个具有多重慢性疾病的临床病例时,即便医疗人员获得了所有的相关数据和证据,整理这些数据并从中获得一个相对可行的治疗方案也是极为复杂的。传统的医疗信息系统无法让这一过程变得更加高效。而在大数据的帮助下,医疗人员或许可以从其他相似病例的医疗数据和治疗方案中找到答案。然后,大数据的应用能够将大量孤立的医疗数据整合起来,形成专家库,以供后续的研究和学习。最后,大数据能够转变传统的医疗模式,患者不再只是被动地接收信息,而是以更加主动的角色参与到整个医疗过程中。

总而言之,随着大数据时代的到来,医疗领域面临着大数据带来的机遇和挑战。物联网和云计算等信息技术的飞速发展、医疗信息系统的应用和医疗信息共享,以及合理利用医疗大数据获得的巨大价值,都为医疗大数据的产生与发展创造了条件。

1.2.2 医疗大数据来源与内容

1.医疗大数据来源

医疗大数据是指个人从出生到死亡的全生命周期过程所产生的医疗数据。医疗大数据的第一大来源是医疗机构。经过多年的信息化建设,我国的医院基本都有自己的医疗信息系统,其是医疗大数据的重要来源。医疗大数据的第二大来源是第三方检测机构,如基因测序产生的数据。人的基因组约有3G个碱基对,如果考虑到人的基因组的多态性,数据量将是非常庞大的。随着基因测序价格越来越低,越来越多的基因数据将被积累起来,基因技术对健康的影响正变成计算和分析的能力问题。医疗大数据的第三大来源是制药企业。药物研发是一个相当复杂的过程,需要进行大量的临床试验,一般的中小型药企的数据体量是TB级的,大型药企的数据体量则是PB级的。医疗大数据的第四大来源是各类可穿戴设备。随着移动互联网的飞速发展和可穿戴设备的普及,各种健康设备通过“云+端”的方式收集用户的生命体征信息,如心电数据、血氧浓度、血压、体温、脉搏、运动量等。除此之外,有关健康的网络搜索数据和网络分享数据、各类研究机构的二次加工数据等都是医疗大数据的来源。

2.医疗大数据的主要内容

医疗大数据的主要内容通常包括医疗服务数据、生物医学数据、医疗保险数据、医药研发与管理数据、公共卫生数据、医疗行业数据、经营运行数据、健康管理与监测数据等[4]。例如,医疗服务数据以电子健康档案、医学影像等为主;生物医学数据以个人基因检测,生物样本,蛋白质组学、代谢组学、基因组学等组学数据为主;医疗保险数据以新型农村合作医疗保险、城镇职工基本医疗保险、城镇居民基本医疗保险等为主;医药研发与管理数据以药物临床试验、药物筛查、基本药物集中采购、医疗机构药品与疫苗电子监管等为主;公共卫生数据以疾病监测、突发公共卫生事件监测、传染病报告等为主,详见表1-1。

表1-1 医疗大数据的主要内容

1.2.3 医疗大数据的特征

医疗大数据具有5个基础特征,即规模性、高速性、多样性、价值性、真实性(见图1-3),还具有时效性、不完整性、冗余性、隐私性等4个医疗领域特有的特征[5]

(1)时效性:时效性是指信息仅在一定时间段内对决策具有价值的属性,健康医疗数据的时效性反映在数据的快速产生及数据变更的频率上。患者的就诊和发病过程、疾病传播等在时间上有一个进度,比如心电图的记录,普通的心电图无法检测出阵发性的心脏疾病的信号,必须长期实时监测心脏状态。医学监测的波形信号属于时间函数,具有时效性。

(2)不完整性:健康医疗数据存在缺失的情况,这是患者转诊、提前出院等导致整个治疗过程的数据没有被完整记录下来。同时,疾病的复杂性和医疗水平的有限性使得疾病不可能完全通过数据来记录。

(3)冗余性:健康医疗数据既有不完整性,也有冗余性。冗余性指的是相同或相似的数据被重复记录,比如对某个疾病的多次检查、有关疾病的基本描述情况、与疾病无关的其他信息等都会被多次记录,且包含大量重复、与医生无关甚至是相互矛盾的就诊记录。 

图1-3 医疗大数据的5个基础特征

(4)隐私性:健康医疗数据具有高度的隐私性。电子病历、电子健康档案包含患者的多项信息,这些信息的泄露会对患者的生活造成困扰及危害,特别是一些敏感性疾病、患者的基因测序信息等。尤其是在发展互联网健康体系中,将医疗大数据通过网络与移动健康监测相结合,隐私数据泄露将会带来更加严重的危害。在对健康医疗大数据进行分析时隐私保护至关重要,目前相关研究人员都在讨论如何有效分析健康医疗大数据而不造成患者隐私泄露的问题。