第四节 本地化语言与翻译技术

随着本地化工具的日益普及和其在大范围内的普遍应用,关于翻译数据互换的需求也随之产生。一方面,对于不同工具提供商的产品,其翻译记忆库之间是否可以互相交换数据,成为最终用户直接面对的首要需求;另一方面,不同系统之间也存在数据重复使用的问题。正是在这样的背景下,本地化行业中的相关团体做出了大量的努力,形成了一些简化翻译数据及信息交换的开放性标准。

一、本地化语言标准

XLIFF(XML Localization Interchange File Format, XML本地化交换文件格式)为本地化行业中可翻译的数据定义了文件交换格式的标准,这是一种基于XML的应用,用于从本地化项目所要处理的各种各样的文件格式中剥离出可翻译的数据,以简化翻译流程。

OSCAR(Open Standards for Container/content Allowing Re-Use,用于内容可重复使用的开放标准)所推出的TMX(Translation Memory Exchange,翻译记忆库交换)是主流的本地化语言标准之一。TMX定义了一些基本的规格,规定了翻译记忆库中文本分段的标准,这样,任何支持此标准的系统均可以导入这些文本片段,以便重新使用。

除了TMX之外,OSCAR还制定了关于术语交换的标准TBX(TermBase Exchange), TBX规定了术语在不同系统之间交换的方式,比如,从某个术语管理系统导入到某个机器翻译系统,这极大地提高了最终用户的生产力。

这些团体的努力证明,为了行业的利益,竞争者可以共同创建某些标准。本地化领域的很多发展,其实正是源于这些团体关于标准创建方面的贡献。

1、XLIFF

XLIFF于2000年底由一个经Oracle、Novell、Sun及IBM/Lotus所推动的小组启动,其目的旨在为可翻译的数据定义交换格式。

XLIFF基于openTag所定义的原则(openTag是一个更早的用于抽取文本的XML应用),同时借用了openTag的一些标记。此外,它还增加了一些创新特性,比如项目信息、预翻译及历史记录、版本管理、二进制对象等。因此,它在许多方面与openTag是相当接近的,只不过它更为精确(不允许以不同方式定义同样的内容),因而也具有更好的互操作性。

显而易见,大部分项目中需要本地化的数据往往都以各种各样的文件格式保存着,某些格式可能比较易于本地化,比如Doc、FM等,而另外很多格式则很难或者根本不可能使用正常的本地化流程来进行处理。关于此类问题的一个有效的解决方案就是将文本剥离成XML的格式,然后再依循正常的本地化流程进行处理。XLIFF正是为解决该需求而诞生的一种标准。

XLIFF采用抽取文本的做法显然在一定程度上简化了本地化中的某些处理流程,然而这种做法也存在一些不可避免的缺陷,最典型的一点在于,由于语言人员拿到手的文件是经过抽取处理的,已经脱离了其原始文件格式,因而也有可能丢失所有相应的上下文信息,语言人员也无法直接查看其翻译后的“所见即所得”的相应版本。

因此,一般而言,仅在不能很好地对原始文件直接应用常规语言流程时,才有必要使用文本抽取方法,尤其当原始文件包含的代码多于文本,而且没有太多上下文信息时,这种方法尤为适用。

2、TMX

1997年6月,一些本地化客户、工具提供商及本地化服务提供商在参加当年的LISA会议之前召开了一个小型的会议,会上针对与日俱增的本地化工具的不兼容问题进行了讨论,显然,翻译记忆库的标准格式亟待统一。会后,这些成员形成了LISA的一个专门团体,即OSCAR,而TMX规范正是OSCAR的一个最重要的成果。

由于TMX是一种XML文档,因此可以用多种语言来存储任意格式的文本片段。也正因为如此,它特别地迎合了本地化行业对于多种语言互译的需求。

在TMX中,文本片段以翻译单元(<tu>元素)进行分组,每个翻译单元都包含一个或多个翻译单元变量(<tuv> 元素),而这些翻译单元变量均是同一个翻译单元不同语言的译文。在翻译单元变量内部,片段元素(<seg>)中包含了文本片段的实际文本。

TMX提供两种实施级别:第一级(仅支持普通文本):每个片段元素(<seg>)中的数据均为普通文本,不包括任何内容标记。通常情况下,如果所要处理的数据不包含任何内嵌代码,则仅实施第一级就够了;第二级(支持内容标记):支持第二级的本地化工具允许文本片段内包含内嵌代码。在这一级别上,TMX通常会保留下列信息:其一,此文本片段中包含内嵌代码;其二,该内嵌代码在此文本片段内的位置信息;其三,某些设计完美的工具往往还会记录内嵌代码类型如粗体或者链接等。

OSCAR团体在发展TMX这一标准的同时,为了确保相关工具开发商的产品确实符合TMX规范,还同时推出了相应的认证机制。

TMX包含一系列相应的规范,以供软件开发商在设计软件的时候加以遵循,使之能够兼容TMX标准。TMX规范具体而言包括如下部分:

*规范文档:该文档包含了TMX最新版本的详细规格。

*遵从性验证文档:该文档描述了TMX验证所需要的相关测试工作。

*文档类型定义文件:包含了用于TMX标准的DTD定义文件。

*TMXCheck:一个小程序,检查工具商的软件是否遵循TMX标准。

3、TBX

术语管理也是翻译工作的一个重要组成部分,在任何本地化项目中,设法保持术语翻译的一致和准确,都是翻译人员关注的首要问题。许多本地化工具也都提供了术语管理和共享的功能,但是,随着本地化过程越来越复杂,同时涉及的人员和工具也越来越多,对含有术语数据库的不同产品进行数据交互的问题也变得越来越复杂,而且日趋迫切起来。很明显,术语的共享绝不应受到翻译人员所采用的工具的限制,必须有一个公共的标准,规范各工具对术语数据库的交换方式。

在本地化过程中可能使用的术语数据库,大体可归为如下两种类型:

*在翻译、编辑等语言处理过程中,由语言人员直接用作参考的术语。

*由自然语言处理(NLP, Natural Language Processing)技术所使用的术语数据,比如由机器翻译(MT)系统所使用的词典。

很明显,无论是将翻译人员通过手工而完成的传统术语库转化为机器翻译系统所使用的词典,还是将那些经由机器处理而创建的词典重新转化为供语言人员参考的术语库,都已经变得相当重要起来。尤其随着某些技术的大量采用,如逆向自动术语提取、正向术语确认等等,构建一个标准的术语交换格式,也有助于不同技术共同遵循同一规范,从而便于面向最终用户的结果能得以有效集成。

总的来说,术语交换格式定义的一些基本规范至少在一定程度上解决了最终用户所面临的问题,翻译语言人员将不再受其所使用的工具的限制,可以对人工词汇表和为机器翻译系统创建的词典进行交叉使用。当然,其前提是能够借助本地化工具对内容加以转换, TBX正是在不同工具之间进行交换的首选解决方案。

二、翻译技术

目前大多数翻译记忆库(TM)工具都在两个方面进行努力:一方面能帮助最终用户节省大量的时间和金钱;另一方面还要具有良好的一致性及数据交换功能等。

1、翻译记忆库技术

所有的TM工具在处理数据时都采用某种架构模型,纵观目前市面上流行的TM工具,大体不外乎如下两种模型。

其一是数据库模型。采用这种模型的TM工具将源语言片段及其翻译保存在同一个单元中,通常我们称之为翻译单元(Translation Unit),简称TU。采用这种模型保存的TM,最终用户看起来一目了然,源语言和目标语言精确对应,但是不便之处在于它完全没有任何上下文可供参考,翻译单元完全脱离于其实际出现的语境。

其二是引用模型。这种模型的TM工具并不将源语言片段及其翻译保存在同一个地方,而是引用其在文档中所出现的位置。因此,如果你还想在上下文中查看该片段,则可以马上调出引用文档。其不便之处也在于,每当开始一个新项目时,都需要确定用于参考材料的文档或项目。

字数统计是翻译过程中最具争议的问题之一,因为这直接关系到费用支付,现今在本地化行业中绝大多数翻译工作都是按字数支付报酬的,因此我们着重来看一下不同的TM工具是如何计算字数的。

表1.1 字数统计示例

模糊匹配是所有TM工具都应用的一项技术,当所要翻译的文本片段与TM中的某个片段比较近似时,TM工具在预处理时会将其标识为模糊匹配(Fuzzy Match),同时TM工具还会通过某种算法来比较两个片段的相似程度,并给出一个百分比。由于各个TM工具所采用的算法各不相同,因此,即使是使用同一个TMX和同一段文本,其所得出的模糊匹配也往往是不尽相同的,下表简要地比较了各个工具对同一文本片段的分析结果,以供参考。

表1.2 匹配率示例

2、机器翻译技术

自20世纪30年代初法国科学家G·B·阿尔楚尼提出机器翻译的设想至今,机器翻译经历了“两次高潮,两次低落”。计算机的发展水平,人们对自然语言理解的认识水平,以及人们对机器翻译的需求水平,是机器翻译发展过程中的三个决定因素。

机器翻译主要应用于两个大的领域:技术文档领域和语言限定/特定领域。

直到20世纪90年代,机器翻译系统的主要应用都被定位于生产能达到出版水平的文档,主要是(但不仅仅是)科学和技术性的文档,这类文档通常都需要相应的专家才能进行翻译。但很显然,机器翻译的实际输出并不适于直接使用,还需要进行大量的修改才能达到出版水平,因此翻译人员往往必须进行所谓的“后编辑”工作,在这种情况下,机器翻译系统的使用变成了一个经济问题:只有机器与人共同协作翻译质量和速度优于只雇人做翻译的情况,并且成本低廉时,机器翻译才会有生存空间。

尽管机器翻译系统事实上还有其他用处,但直到今天,技术文档的生成仍然是最重要的,对大型机系统的供应商和开发商来说(Systran和Logos)尤其如此。他们的主要客户是在全球市场出口仪器设备的跨国公司,因此不得不对产品的市场宣传材料和技术资料加以翻译。技术资料的翻译量通常非常大。一台设备的操作手册可能多达上千页,而且新机型出来之后还常常要对手册进行修改。为了获得最大的成本效益,这些公司通常将机器翻译系统和公司技术资料的编纂工作自己进行集成,编写人员从一开始就要保证术语使用的准确性及手册风格和语法的正确性。

对源语言进行较大程度的限定往往是可行的。早期的一个著名例子是Xerox公司使用的Systran系统。在Xerox公司,技术文档的作者必须用针对国际化需求而特意定制的英语来编写文件。这时不仅某个术语的说法被固定了,而且怎样遣词造句也固定了下来。这种做法的好处是排除了许多机器翻译系统难以处理的歧义,输出质量更好,能更快地同时变成多个其他语种,可以生成更多容易理解的英文资料。这些优点已经被其他跨国公司认同。

作为自然语言处理的一个应用领域,机器翻译研究能否有所突破的关键在于对语言知识体系的认知和重构。计算机的自然语言理解处理首先需要建立一个定位适当的模拟大脑语言感知过程的理论模式。没有这样的理论模式,就不会有与大脑语言感知过程相类似的理解处理总体方案;没有这样的理解处理方案,就不会有语言信息深层处理技术的突破。仅纠缠于语法、逻辑和统计的传统自然语言理解理论、方法与技术,虽然在语言表层和浅层进行了大量的研究,但并未在语言感知过程这一关键问题上做出实质性的工作或取得实质性的进展。这就是为什么近20年来机器翻译的正确率始终徘徊于70%以下的根本原因。

机器翻译的研究和开发仍将是21世纪自然语言处理的一个重要课题。它涉及人工智能、语言学、计算机科学和认知科学等多学科领域。然而,大体来说,使用计算机进行自然语言翻译并没有也不可能对职业翻译人员的饭碗有什么威胁。翻译人员的翻译技巧仍将很宝贵。例如,机器翻译从没有也不敢试图涉猎文学或法律文件的翻译。与之相对,在互联网上对电子邮件等文本进行粗略翻译方面也没有什么方法能与机器翻译相媲美。机器翻译系统确实正在开拓人类翻译从未涉及的领域:为需要用外语写作的作家提供生成文章草稿的帮助;在线电视解说词翻译,翻译数据库信息;无疑未来还会出现更多这类新的应用。这些领域不会对职业翻译人员构成威胁,因为这些内容从来都是职业翻译家未曾涉足的。毫无疑问,机器翻译和人类翻译可以——将来也一定会——各司其职并和谐共存。

3、全球化管理系统

因特网的迅速发展促动网站本地化方法的革新,而在线翻译则是这种革新的代表趋势。它们大部分是集成系统,提供简单的翻译手段、管理网站的全球化工作流程或者更复杂的“内容管理系统(Content Management System)”及“全球化管理系统(Globalization Management System)”。

内容管理系统是为了用来创作、保存及部署企业内容而设计的系统;而全球化管理系统则是为了用来帮助管理本地化流程并提高其自动化程度而设计的系统。通常将CMS/GMS协同用于创建真正的多语言企业内容管理解决方案。众所周知,企业内容总是处在不断的变化与更新之中,因此确保由GMS所管理的本地化流程尽可能自动化就变得非常重要。GMS一般使用工作流技术来自动检测新的或修改过的源内容,然后将内容自动发送给本地化供应商。GMS使用集中式的语言资源管理来支持翻译过程,并自动将翻译好的内容再交回企业。

CMS和GMS都是相当复杂的系统,两者不但需要交换内容,而且需要基于商业规则进行协作。大多数GMS都提供某种架构,允许多个不同的内容源和单一的本地化管理系统进行交互。因此,一个企业可能会有好几个不同的CMS,但通常只有一个GMS。通过这个GMS,企业可以集中管理术语库,并采用单一的界面来管理所有的本地化流程,使得整个流程及其费用都易于控制。

GMS基本上是为了适应因特网迅速发展带给本地化行业冲击而应运而生的一种解决方案,同时又和因特网本身所能提供的便利性予以很好的结合,其主要包括:资源共享、周期较短、维护费用低。当然,GMS也不是万能的,它也有一些明显的缺陷:其一就是成本问题;其二是格式支持问题;最后是可用性方面。

思考题

1、如何理解翻译与本地化、国际化及全球化之间的关系?

2、如何让本地化这个新兴行业成长得更快、更成熟?试分析机遇与挑战。

3、试比较XLIFF、TMX与TBX之间的不同。除这三种标准外,还有哪些问题也急需解决?

4、请论述所熟悉的一种辅助翻译软件中TM的优缺点。

5、请论述机器翻译在本地化领域的发展空间。