- 医疗卫生信息标准化技术与应用(第2版)
- 李小华主编
- 4647字
- 2022-04-21 15:50:57
第二节 卫生信息分类与编码的方法
一、分类方法
(一)确定分类对象
卫生信息分类与编码的对象是医疗卫生领域各项业务、科研和管理活动中产生的,能够通过信息系统处理的,一系列满足数据交换与共享的数据,主要任务是探索这些基本数据在医疗卫生概念层的归并、编目和计算机管理。卫生信息分类对象的最小单元是数据,不涉及具体信息系统的设计和数据库字段。
(二)明确分类指征
卫生信息分类与编码以医疗卫生业务活动类别为主体,参考国内外医疗卫生学科分类、机构分类和其他领域的信息资源分类办法,依据信息资源的业务属性和活动特征,按照层次和关联进行归并,不同于医疗卫生学科、机构、文献等内容的分类,不代替学科、文献、图书分类及学术上的各种观点[4]。
(三)制定分类原则
1.系统性原则
医疗卫生各业务领域间信息资源存在着密切的联系和广泛的交叉,因此信息资源分类坚持系统性原则,以业务一致性为基本内容,简化分类体系,减少信息冗余,优化分类结构。
2.实用性原则
信息资源分类的终点是数据实体层,也是用户的最终应用层,因此分类体系要充分考虑用户的可操作性。操作性强的信息分类体系能满足用户对数据归属和查询的理解,也有助于数据的规范化设计和编制。
3.可扩展性原则
医疗卫生信息资源的内容会随着时间的推移、业务的发展而不断扩展,因此分类体系应保证充分的可扩展性,确保分类体系框架适应不断丰富的信息种类和数量的增长。
4.兼顾科学性原则
医疗卫生信息是一个相对独立的资源域,各种不同属性间存在着多角度的内在关联,因此分类系统应遵循自上向下优先选择最能代表信息资源的本质特征的内容进行分类[5]。
(四)分类法
1.面分类法
是把给定的分类对象,依据其本身固有的各类属性,分成相互之间没有隶属关系的面,每个面都包含一组类目。将某个面中的一种类目和另一个面的一种类目组合在一起,即组成一个复合类目。
应用面分类法将所有医药卫生现有或可能产生的数据的属性或特征视为若干个“面”,每个“面”再分为彼此独立的若干个类目。根据需要将这些“面”中的类目组合在一起,形成一个复合类目。面分类法的分类原则是根据需要选择分类对象本质属性或特征作为分类对象的各个“面”,不同“面”内的条目间相互不交叉,对每个“面”都给出明确的定义。面分类法具有较大的弹性,一个面内类目的改变,不会影响其他的面;可根据需要组成任何类目,同时也便于应用计算机处理信息,易于添加和修改类目。面分类法不经常使用,往往是同线分类法结合构成混合分类法使用。
2.线分类法
也称层次分类法,它是将初始的分类对象按选定的属性作为划分基础,逐渐分成相应的若干个层次级类目,并排列成一个有层次的逐级展开的分类体系。这种表现形式是大类、中类、小类等。将分类对象一层一层进行具体划分,逐级展开。各个类之间构成并列或隶属关系,既不重复,也不交叉。在线分类体系中,一个类目相对由它直接划分出来的下一层级的类目而言,称为上位类,其类目也叫母项。有上位类与直接划分出来的下一层级的类目,相对于上位类而言,称为下位类,也叫子项。在这里上位类与下位类之间存在着从属关系,即下位类从属于上位类,也就是子项从属于母项。
线分类法遵循的基本原则由某一上位类划分出的下位类类目的总的范围应与其上位类类目的范围相等,当某一个上位类类目划分为若干个下位类的类目时,应选择一个划分基础。同位类的类目之间只对应于一个上位类分类,要依次进行,不应有空层或加层[6]。
(五)构建分类框架
1.层级设计
根据医疗卫生信息的基础属性和本质特征分析本领域资源域的全集范畴和主体类别。按线分类和面分类相结合的方法,再将其逐次分成相应的层级,每一个层级设若干节点作为类目,由此排成一个有层次、有节点、逐级展开的分类框架。在该分类框架中,同位类之间按并列关系设置,下位类与上位类之间按隶属关系设置。为兼顾稳定性和扩展性,将分类框架设计4层,前2层按面分类,保持稳定性;第3、4层遵循线分类原则,提供扩展空间。
2.类目设计
将上述4层分类框架分别定义为主题域、主类、子类和小类。其中前3层划分出的下位类类目范围与其上位类类目保持范围相等,第1层将医疗卫生领域信息资源域全集抽象为若干个主题域;第2层将每个主题域按现有和可能产生的信息资源的本质属性或特征分解为若干主类;第3层是对每个主类信息进行概念抽象的基础上,根据目前现有或规划的信息系统为特征进行划分,构建若干子类。不同主题域、主类和子类间相互不重复、不交叉,每个主题域、主类和子类都给出明确的释义。小类是子类的下位类,也是具体业务活动中相同属性多个数据集合的类目,内容范围等于或小于子类,即小类类目可以不是子类的全集,因为随着信息资源的扩展和信息系统建设的不断发展,小类属性需要不断地补充和完善。
3.类目名称定义
分类框架中的每一个类目都是一个特定的主题,表达一类信息的内涵和外延,需要给出明确的定义和名称。本分类系统将4个主题域分别定义为疾病预防控制、医疗卫生服务、医疗卫生管理和卫生监督[7]。主类、子类和小类的类名称定义以“疾病预防控制”主题域内容为例说明,如将“疾病预防控制”主题域分解为5个主类,分别定义为监测、调查、干预、评价和发布,将“监测”主类目分解为4个子类目,分别将其定义为健康监测、疾病监测、伤害监测和危险因素监测。由于小类可根据所属数据基本内容进行不断补充设置,所以本研究目前已经根据需要给出可能的内容,如将“健康监测”子类目给出了出生监测、生命过程事件监测和死因监测3个小类定义,用户可以根据需求按规则扩展。
二、编码方法
编码是一个对特定对象或事物进行分类的过程,或是对事物进行多轴分类的分类集合。在大多数分类中,各类用代码表示。事实上,编码是对对象多方面性质的解释,代码可以是数字、字母或两者兼具。
根据编码对象的特征或根据所拟订的分类方法,应采用不同的编码方法。编码方法不同,产出的代码类型不同。常见的代码类型如图6-2所示。
(一)缩写码
缩写码是按一定的缩写规则从编码对象名称中抽取一个或多个字符而生成的代码。这种编码方法的本质特性是依据统一的方法缩写编码对象的名称,由取自编码对象名称中的一个或多个字符赋值成编码表示。
图6-2 代码类型
缩写码编码方法能有效用于那些相当稳定的,并且编码对象的名称在用户环境中已是人所共知的有限标识代码集。
1.优点
用户容易记忆代码值,从而避免频繁查阅代码表,可以压缩冗长的数据长度。
2.缺点
编码依赖编码对象的初始表达语言、度量系统等方法。
3.示例
《世界各国和地区名称代码》中,部分国家的字母代码,如奥地利(Australia)代码AT;加拿大(Canada)代码CA;中国(China)代码CN。
(二)层次码
层次码编码方法以编码对象集合中的层级分类为基础,将编码对象编码成为连续且递增的组(类)。
位于较高层级上的每一个组类都包含并且只能包含它下面较低层级全部的组类。这种代码类型以每个层级上编码对象特性之间的差异为编码基础[8],每个层级上特性必须互不相容。层次码的一般结构如图6-3所示。
图6-3 层次码示意图
层次码能反映编码对象间的隶属关系。层级数目的建立依赖于信息管理的需求。层次码较少用于标识和参照的目的。
层次码非常适合于诸如统计目的、报告货物运转、基于学科的出版分类等情况。在实践中既有固定格式,也有可变格式。固定格式比可变格式更容易处理一些。
1.优点
易于编码对象的分类或分组,能在较高的合计层级上汇总代码值。
2.缺点
限制了理论容量的利用,因精密原则而缺乏弹性。
3.示例
《学科分类与代码》,在数学学科(代码110)下有数理逻辑与数学基础(代码110-14)。
(三)复合代码
复合码是由若干个完整的、独立的代码组合而成的代码。一般地,复合码编码方法包括并置码编码方法和组合码编码方法。
1.并置码编码方法
并置码是由一些代码段组成的复合代码,这些代码段提供了描绘编码对象的特性,这些特性是相互独立的。这种方法的编码表达式可以是任意类型顺序码、缩写码、无序码的组合。并置码编码方法侧重于对编码对象特性的标识。
(1)优点:
以代码值中表现出一个或多个特性为基础,可以很容易地对编码对象进行分组,容量与每个特性可能带有的值的数量相联系,代码值可以解释。
(2)缺点:
因需要含有大量的特性,导致每个代码值有许多字符,难以适应新特性的要求。
2.组合码编码方法
组合码也是由一些代码段组成的复合代码,这些代码段提供了编码对象的不同特性。与并置码不同的是,这些特性相互依赖,并且通常具有层次关联。
组合码编码方法常用于标识目的,以覆盖宽泛的应用领域。组合码偏重于利用编码对象的重要特性来缩小编码对象集合的规模,从而达到标识目的。
(1)优点:
代码值容易赋予有助于配置和维护代码值,能够在相当程度上解释代码值,有助于确认代码值。
(2)缺点:
理论容量不能充分利用。
(3)示例:
居民身份证号整个组合码共分4段,前两个代码段标识了编码对象公民的空间和时间特性,第三个代码段则依赖于前两个代码段所限定的范围,第四个代码段依赖于前三个代码段赋值后的校验计算结果。
(四)顺序码
顺序码是由阿拉伯数字或拉丁字母的先后顺序来标识编码对象的。顺序码编码方法就是从一个有序的字符集合中顺序地取出字符,分配给各个编码对象。这些字符通常是自然数的整数,如以“1”打头,也可以是字母字符,如AAA、AAB、AAC……
顺序码一般作为以标识或参照为目的的独立代码来使用,或者作为复合代码的一部分来使用,后一种情况经常附加分类代码。
在码位固定的数字字段中,应使用零填满字段的位数,直到满足码位的要求。
顺序码编码方法还可细分为以下三种方法:递增顺序码编码方法、系列顺序码编码方法、约定顺序码编码方法。
1.递增顺序码编码方法
编码对象被赋予的代码值,可由预定数字递增决定。例如,预定数字可以是1(纯递增型),或者是10(只有10的倍数可以赋值),或者是其他数字(如偶数情况下的2)等。用这种方法,代码值不带有任何含义。为了以后始代码集的修改,可能需要使用中间的代码值,这些中间代码值的赋值根据不必按1递增。
(1)优点:
能快速赋予代码值、简明、编码表达式容易确认。
(2)缺点:
编码对象的分类或分组不能由编码表达式来决定、不能充分利用最大容量。
2.系列顺序码编码方法
系列顺序码是根据编码对象属性或特征的相同或相似,将编码对象分为若干组,再将顺序码分为相应的若干系列,并分别赋予各编码对象组,在同一组内,对编码对象连续编码。
这种编码方法首先要确定编码对象的类别,按各个类别确定它们的代码取值范围,然后在各类别代码取值范围内对编码对象顺序地赋予代码值。系列顺序码只有在类别稳定并且每一具体编码对象在目前或可预见的将来不可能属于不同类别的条件下才能使用。
(1)优点:
能快速赋予代码值简明编码表达式、容易确认。
(2)缺点:
不能充分利用最大容量。
3.约定顺序码编码方法
约定顺序码不是一种纯顺序码。这种代码只能在全部编码对象都预先知道并且编码对象集合将不会扩展的条件下才能顺利使用。
在赋予代码值之前,编码对象应按某些特性进行排列,例如依名称的字母顺序排序,按事件、活动的年代顺序排序等。这样得到的顺序再用代码值表达,而这些代码值本身也应是从有序的列表中顺序选出的。
(1)优点:
能快速赋予代码值简明编码表达式、容易确认。
(2)缺点:
不能适应于将来可能的进一步扩展。
(五)无序码
无序码编码方法是将无序的自然数或字母赋予编码对象。此种代码无任何编写规律,是靠机器的随机程序编写的。
无序码既可用作编码对象的自身标识,又可作为复合代码的组成部分(复合代码的其他部分则以其他编码规则为基础)。