- 数字出版元数据基础
- 孙广芝 邢立强 张保玉编著
- 2694字
- 2020-08-28 00:36:19
1.2元数据及元数据标准概况
1.2.1 什么是元数据
元数据是对信息资源进行描述、解释、定位或使信息资源更易于被检索、利用及管理的结构化信息。元数据经常被称作数据的数据(data about data)或信息的信息(information about information)。
元数据的含义是逐渐发展的。最初的元数据主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到以电子形式存在的各种信息资源的描述数据。目前,元数据所描述对象的范围已经扩展到各种类型的信息资源。
1.2.2 什么是元数据标准
要理解元数据标准,首先要了解与之相关的几个概念。
(1)元数据方案(metadata schemes)。
元数据方案是为特定用途(如描述某个特定类型的信息资源)而设计的元数据元素集。所谓元数据元素,指的是用于对信息资源进行描述的数据单元,如题名、作者、出版单位、出版地等。
(2)元数据规范(metadata specifications)。
在特定的领域或者行业,可能存在多个元数据方案被业内组织采用的情况,如果其中某一个或某几个元数据方案的内容保持相对稳定并被该领域或者行业广泛采用,那么该元数据方案就可称为元数据规范。
(3)元数据标准(metadata standards)。
如果某个元数据规范得到标准化机构的认可和批准,则成为元数据标准。
对于出版领域的元数据方案、元数据规范和元数据标准的关系,如图1-1所示。
图1-1元数据标准的演化过程
仅在一个出版单位内部使用的特定的元数据元素的集合称为元数据方案,如果该元数据方案被很多出版单位共同使用,则该元数据方案可以称为元数据规范,更进一步地说,如果该元数据规范被国际标准化组织(International Organization for standardization,ISO)、中国国家标准化管理委员会等标准化机构认可并发布实施,则成为元数据标准。
1.2.3元数据标准在数字出版中的作用
作为内容组织和管理的有效手段,元数据在计算机技术的支撑下获得了快速发展,在很多领域得到广泛应用。按照元数据标准的要求对内容资源进行规范化描述,能够有效促进内容资源的处理、交换、共享和开发利用。元数据标准在数字出版中的作用主要体现在以下几个方面。
1.准确唯一地标识出版物
大多数的元数据标准中都包含用于对出版物进行唯一标识的元数据元素,比如ISBN号、ISSN号、DOI等。使用这些具有标识功能的元数据元素,可以准确、唯一地指向元数据所描述的作品或对象。在数字化出版环境中,图书或电子出版物的订货、销售、交易和管理都离不开唯一标识。唯一标识保证了用户在越来越多的内容产品中快速准确地找到所需的内容产品。
2.方便查询、促进交易
使用元数据对资源进行描述使得用户能够查询到资源,从而可以促进出版物的交易。元数据的这一功能不但使出版单位获益,也更加方便了读者和研究人员。例如,很多出版单位在出版物刚上市的时候会进行市场推广活动,但推广期过后,读者就很难再获得相关的信息,图书的销量也会受到很大影响;利用元数据对图书进行描述并长期提供在线书目,可以明显促进出版物销量的增长,而用户通过在线书目不仅能够方便地找到各种图书,而且可以在多个出版单位提供的图书中进行搜索并进行购买。在数字出版时代以前,消费者在购书时可能会向店员或图书馆工作人员征求意见,但现在,更多的消费者选择上网查询相关信息。据调查,61%的顾客在购买电子书之前会进行研究和浏览,而在实体书店,只有 37%的顾客会这样做。那么消费者在网上查询浏览的是什么呢?是元数据。也就是说,元数据使得出版信息更容易被分发、检索,从而促进了出版物的销售。
对于销售商而言,他们不仅要面对大量的出版单位,出版物的形式也各式各样,包括书、报、刊,以及电子、音像出版物等多种媒体类型。通过采用统一的出版元数据标准对所有的出版物类型进行统一描述,销售商就能很方便地对各个出版单位提供的书目数据统一处理使用,提高市场效率。
3.促进数据交换与处理
对于数字出版产业的各参与方,包括出版单位、销售商、图书馆、移动终端提供商、内容集成商等机构而言,使用元数据标准对出版物进行描述能够促进各方的数据交换。
设想一下,如果出版单位在对出版物进行描述的时候无据可依,不采用一定的元数据标准进行规范,那就难免会出现不同部门的人员为了不同的目的重复录入本应相同却不一致的描述信息的情况。例如某作者要出版一部作品,当作者与出版单位签订出版合同时,出版单位可能需要录入该作品的一些基本信息,包括作品名称、作者姓名等;等作者完成初稿交由出版单位进行编辑的时候,出版单位可能又要录入一些相关的信息,此时前面签订合同时录入的信息有可能被重复录入,带来很多的重复劳动,并且增加了出错的概率。如果出版单位按照一定的元数据标准对作品进行描述,并使用工具对作品的元数据进行管理维护,作品的所有信息就可以一次录入多次使用,并且当数据更新的时候,所有用到该数据的应用都会实时更新。更进一步说,如果出版单位能将元数据的管理、更新、维护和使用作为整个出版流程的组成部分,出版单位就能创建结构化的元数据并将关于出版物的统一一致的信息提供给供应链的各参与方,元数据就此成为出版单位对出版物进行市场营销的工具。
4.提高电子资源管理及开发利用的效率
出版单位的电子资源既包括完整的出版物,也包括各类数字对象,这些数字对象可能是完整出版物的一部分,也可能是独立制作的文字、表格、公式、图像等内容。这些电子资源是出版单位的宝贵资源,如果不采取适当的方式去共享和利用,必然形成资源的重复性开发,导致人力、物力的浪费。出版单位可以通过元数据对资源进行标引,并在内容管理系统中对这些资源进行管理和开发利用,从而满足新的数字出版产品生产和商业模式的需要,提高数字资源的利用率,体现深度开发、整合传播、增值利用的数字出版理念。
5.方便资源的长期保存
数字出版产业中的很多资源具备长期的使用价值,但是当存储介质、硬件和软件技术变更的时候,这些资源存在难以利用的风险。利用元数据可以支持资源的长期保存,元数据中的数据元素除了可以对资源进行描述和确认外,还可以包括详细的格式信息、制作信息、保护条件、数据迁移方式、保存责任等。用于保存的元数据一般包括支持和证明数字保存过程的信息,包括:创建清晰的来源记录;详细描述真实状态;记录数字对象经历的技术处理;对数字对象的技术细节进行描述;描述数字对象的起源环境;指定权限管理信息。保存元数据还要提供长期维护资源的信息,即支持数字资源长期保存过程中的可生存能力(对象的比特流是完整的)、可还原能力(可以将对象转化成能够阅读或利用的格式)与可理解能力(还原的内容能被解释和理解)的必要信息。利用这些规范的元数据描述,可以实现数字出版内容资源的长期保存,为数据的拥有者、管理者提供足够的知识,以便采取适当的措施来长期维护数字对象,并且不管将来存取技术发生什么变化,都能保证存档对象的内容可以正确解析和呈现。