2.2 词长测量

关于汉语的词长测量,本体研究领域一般用音节或字作为单位,例如“汉语”的词长为2。而在计量语言学中,虽然大多数语言都用音节作为词长测量单位,但汉语是否与这些表音语言一样还需要计量语言学理论的验证。下面我们运用计量语言学中的一些方法先对这一问题进行考察分析。

Grotjahn & Altmann(1993:142)认为“词长测量单位有三种基本类型,分别是:(a)图形的,(b)语音的,以及(c)语义的”。词长的测量单位不是固定的,它因语言类型及语体类型而不同。因此,对于每一种具体的语言,研究其词长分布的首要前提是对其潜在的词长单位进行考察,从而找出合适的词长测量单位。以英语为例,一些研究者用音节测量词长,而有的用字母来测量,它们的词长分布结果迥异。因此,对一种语言中词长的潜在可能单位进行系统地考察就显得尤为必要。汉语就是一种非常适合这种考察的语言。为什么呢?原因是汉语的复杂性远高于那些字母语言,它既有一个拼音系统,又有一个汉字系统。这两个系统可分别对应于口语和书面语,而且它们各自有一组可能的词长测量单位:口语中的拼音字母、音位、音节和书面语中的笔画、部件、字。这里需要指出的是,口语中词长的测量单位最精确的是用时间单位,但由于汉语拼音中的字母与表音语言中的字母很不同——汉语中基本上每个字母都有发音,这可以作为对词发音时长的一种粗略的测量方法。

根据之前的一些研究成果,通常来说,音节是最常用的词长测量单位。Popescu et al.(2013:225)认为:“对于测量词长,我们除了使用音节作为测量单位之外,别无选择。音节作为词长的单位是最稳妥的选择,因为它可以用于所有的语言中。”关于汉语的词长分布考察,Wang(2013)基于《现代汉语词典》考察了汉语的静态词长分布,并基于一个新闻语料库考察了汉语的动态词长分布。Wang(2013)使用的词长测量单位是字,其结论是汉语词长分布大致符合正科恩—负二项式分布(Positive Cohen-Negative Binomial),但是方差和散布系数的结果不是很令人满意。该文对此的解释是数据太大的缘故,当然,这是计量语言学中经常出现的一种情况。我们觉得,除了这一原因外,还有一个更内在的原因,即使用字作为词长测量单位来考察新闻语料中的词长分布不符合汉语实际,这可以做如下解释。

在口语中,说话者通过语音来表达意义,而受话者通过解读语音来理解说话者要表达的意义。在书面语中,书写者通过书面文字来表达意义,而阅读者通过解读文字来理解书写者要表达的意义。根据“最省力原则”(Zipf,1949)和Köhler的协同语言学理论(Köhler,1986),对于所有信息发送者和接受者,他们必须使一个语言系统同时满足如下几个负担,否则这个语言系统就不能高效运作:

(1)最小记忆负担(minG);

(2)最小话语生成负担(minP);

(3)最小解码负担(minW)。(关于这“三个负担”,详见Köhler(1986)的论述。)

上面的三个“负担”理解起来略显抽象,用一个比较形象的说法就是:语言系统就像一个天平,一端是表达负担,另一端是解码负担。这样我们就可以比较容易地理解在口语中,天平的两端分别是语音表达负担和语音解读负担,而语言表达负担可能体现在一个词的音节多少上。在书面语中,天平的两端分别是文字书写负担和文字解读负担,而文字书写负担可能体现在一个词的部件多少上。这里有一个问题是,文字书写负担为什么不能体现在笔画多少上——因为笔画数一般只作为汉语词的复杂度的测量单位。

根据上面的分析,我们提出以下两个问题:

问题1:汉语口语中词长的最佳测量单位是什么?

问题2:汉语书面语中词长的最佳测量单位是什么?

接下来的问题是如何选择最合适的词长分布模型。按照以往的研究成果,词长分布与计量语言学中的一些定律如齐普夫定律、门策拉定律(Menzerath's Law),以及一些理论如协同语言学理论等密切相关(Zipf,1935; Altmann,1980; Cramer,2005; Köhler, 2005)。据不完全统计,到目前为止,计量语言学家们已经对超过70种人类语言进行过词长分布的考察(Popescu et al.,2013)。在这些实证研究基础上,一系列的理论词长分布模型被提出来(Grotjahn & Altmann,1993; Wimmer et al.,1994; Wimmer et al.,1999; Djuraš, 2012)。总结来说,主要有两个基本系列:一个是泊松分布(Poisson distribution),另一个是二项分布(binomial distribution)。根据这些基于几十种语言词长分布研究总结出的理论模型结果,我们认为汉语的词长分布模型也不会超出这两个系列。这就是说,如果音节和部件是汉语口语和书面语中最佳的词长测量单位,基于它们的词长分布模型也应该属于这两个分布系列。

一方面,从实证角度来说,词长分布应该满足上面提到的两种分布模型系列。而另一方面,从理论角度来说,词长在语言理论中不是孤立的,而是与其他语言单位层级紧密相连的(Köhler,2005)。而这又为我们找到最佳词长测量单位提供了另一种途径,具体来说包括以下两个方面:

第一,一个最佳词长测量单位应该遵从协同语言模型这一计量语言学领域最重要的理论(Wimmer et al.,1994)。该理论认为,词汇的结构特性,包括长度、频率、多义度和同义度等,相互之间是密切相关的,它们形成一个协同系统(Köhler,1986)。本章中,我们只考察词长和词频之间的关系。按照协同语言学理论,它们之间的关系应该满足幂律公式y=axb

第二,一个最佳词长测量单位应该存在于该语言的层级单位系统中,即它应该是词紧邻的下一层级单位。关于具体验证方法,我们使用计量语言学领域除齐普夫定律之外的另一个最重要的定律,即门策拉定律。

在一个语言系统中,高一层级的语言单位是由低一层级的语言单位构成的,而这种上下级的构成关系是符合定律的。门策拉定律就是描写语言整体与部分关系的计量定律,它的一个基本观点是:一个语言结构越长,那么它的构成成分越短(Altmann,1980)。一个简短的说法是“整体越大,部分越小”(Menzerath,1954:10)。一个关于门策拉定律的最新解释是Milička(2014)的“整体大于部分之和”说,这在一定程度上跟认知语言学中的构式(construction)概念不谋而合(Goldberg,1995)。

根据上面两个方面的分析,我们提出问题3和问题4:

问题3:汉语词汇层面的门策拉层级结构是怎样的?

问题4:上面我们提出的适宜模型、符合协同语言理论和符合门策拉定律这三个方法能否成功地解决汉语最佳词长测量单位的选择问题?

除此之外,口语和书面语的对比研究也是语料库语言学中语体风格研究的关注点(Biber,1988)。正好本节的研究也涉及口语和书面语,因此我们试图从计量语言学的角度对这一问题稍做考察,于是提出问题5:

问题5:汉语中一种语体的最佳词长测量单位是否也适用于另一种语体?

例如,如果这个问题的答案是肯定的,那么我们就可以推测汉语口语和书面语之间存在某种交互影响。

为了测量汉语口语和书面语的词长,我们构建了一个口语语料库和书面语语料库。口语语料是凤凰卫视的《锵锵三人行》对话文本,主要是当前的一些社会热点问题的三人对话;书面语语料是选自《散文选刊》的20篇散文文本。以上每篇文本的大小都在词数726到3792之间。这里需要说明的是,我们之所以每篇取较小的文本是为了尽量保证语料的同质性,因为篇幅较大的文本的生成过程容易因客观情况的干扰而被打断,从而存在异质性的文本,而这对我们的计量研究是不利的。口语语料取自2013年6月至2013年9月之间的电视节目转录文本,按每个月5篇,共取20篇;书面语语料取自2013年6月至2013年9月之间的《散文选刊》文本,也是按每个月5篇,共取20篇。

由于汉语文本不分词,在测量词长之前我们先要对文本进行分词处理。分词就要涉及词的定义问题,这个问题比较复杂,而在汉语中尤为如此。但是,从自然语言处理的角度,如今分词问题已经算是一个早已解决了的问题。我们这里用中科院计算所的ICTCLAS 2008对汉语口语及书面语文本进行分词处理。然后我们逐一进行人工检查,使分词的正确率能够达到98%以上。表2.1和表2.2是口语和书面语文本的一些基本语言计量统计信息。

表2.1 汉语口语文本基本信息

表2.2 汉语书面语文本基本信息

分词之后,我们开始统计基于不同词长测量单位的词长数据。这里我们对这些潜在词长测量单位以及统计所需的数据材料做简单介绍如下。

口语中词长的三个潜在测量单位分别是拼音字母、音位和音节。例如,词“汉语”包括两个汉字“汉”和“语”,可以被转写成拼音“hanyu”,它的发音是[xany]。这个词有5个拼音字母“h”“a”“n”“y”“u”,四个音位“x”“a”“n”“y”,以及两个音节“han”“yu”。为了能够自动统计一个词语的拼音字母数,我们使用了一个Java语言工具包pinyin4jhttp://pinyin4j.sourceforge.net来将词转换成拼音字母。为了测量一个词的音位数,我们使用了一个包含7291个汉字发音的列表(如果遇到不在列表里的字,我们人工添加进去)。而对于一个词的音节数的测量,我们采用一个汉字一个音节的方法,即忽略掉“儿”的情况,原因一是儿化音统计起来比较麻烦,二是儿化音的情况比较少,可以忽略不计。

书面语中三个潜在的词长测量单位分别是笔画、部件和汉字。笔画的鉴定就是书写时不间断的一个书写动作。部件是汉字的构建成分,一般多于一个笔画。汉字就不用多做解释了。举例来说,词“汉字”包括两个汉字,而“汉”有五个笔画“丶”“丶”“”“乛”“”,“字”有六个笔画“丶”“丶”“乛”“乛”“亅”“一”。“汉字”共有四个部件“氵”“又”“宀”“子”。为了测量一个词的笔画数和部件数,我们使用了一个包含20902个汉字的笔画和部件表来作为测量的标准。

我们使用Matlab 2012b来对词长和词频之间的幂律关系,以及门策拉定律进行拟合;使用Altmann-Fitter 3.1.http://www.ram-verlag.biz/altmann-fitter这一计量语言学最常用的工具进行词长分布的拟合,并找出最好拟合结果,以及拟合参数,及R2χ2P(χ2)、C=χ2/N和自由度DF(degree of freedom)等。

2.2.1 词长测量单位的选择

A.口语中的词长测量

图2.1中柱状图展示了基于拼音字母测量词长的词长分布结果,折线图展示了某一词长的词的平均使用频率,即平均词频。

图2.1 基于拼音字母的词长分布及平均词频(部分图)

我们使用Altmann-Fitter对词长分布数据进行拟合,而结果显示没有一个合适的分布模型。因此,这不符合2.2节中提出的三个判定方法中的第一条,即符合通用的词长分布模型。

与表音型语言相比,汉语拼音也由26个拼音字母构成。但是从图2.1中可以看到,它们的区别在于汉语的词长分布在这有两个高峰。

至于词长和平均词频的关系,这里的20个文本中有12个不符合幂律公式y=axb,主要原因是这些文本的词长类1(即长度为1的词)的平均词频太低,不符合协同语言学中词长越短,使用频率越高的假设。

关于基于拼音字母的词长测量,总体来说,不符合我们提出的鉴定方法。

图2.2的柱状图展示了基于音位测量词长的词长分布结果,折线图展示了某一词长的词的平均使用频率。

图2.2 基于音位的词长分布及平均词频(部分图)

跟基于拼音字母的词长分布拟合一样,我们使用Altmann-Fitter进行拟合,但没有找到合适的分布模型。而且在分布形式上,如图2.2所示,也有两个比较明显的高峰,这使得汉语与其他语言区分开来,如英语和德语(Riedemann,1996)。

至于词长和平均词频的关系,20个文本中有18个不符合幂律模型。因此,基于音位的词长分布也不符合协同语言学的理论。

基于音位的汉语口语词长分布,总体来看,也不符合我们提出的鉴定方法。

现在,在汉语口语中,已经只剩下音节这一可能的词长测量单位了。图2.3展示了用扩展正泊松模型(Extended Positive Poisson)及扩展对数模型(Extended Logarithmic)对基于音节的词长分布数据进行拟合的结果。

图2.3 用Extended Positive Poisson及Extended Logarithmic对文本1、7、17和文本2、4、8分别进行拟合的结果

对于所有有合适拟合模型的口语文本,拟合结果见表2.3,包含最佳拟合模型、拟合参数及拟合优度等。

表2.3 口语文本的基于音节的词长分布拟合结果

(续表)

从表2.3中可以看到,20个文本中共有17个文本有合适的词长分布模型,其中12个是Extended Logarithmic,剩下的5个为Extended Positive Poisson。虽然我们不知道为什么剩下的3个文本没有合适的分布模型,但是这种情况在计量语言学中是比较常见的。主要原因在于文本的异质性。但不管怎么说,我们认为基于音节的汉语口语词长分布有合适的分布模型。

接下来我们来看词长和平均词频之间的关系。拟合结果显示,所有20个文本皆符合幂律公式。如图2.4所示。

图2.4 基于音节的词长和平均词频的幂律关系拟合结果(部分图)

(注:横坐标表示基于音节的词长,纵坐标表示某一词长的平均词频。)

从图2.4中我们可以看到有些点(观察平均词频)偏离了拟合曲线(理论平均词频)。其实这是语言统计检验中经常出现的现象,而我们只需要看拟合优度,决定系统R2的值。结果显示,拟合优度良好。

下一步我们验证第三个方法,即门策拉定律。

先简单介绍一下门策拉定律,门策拉定律描述了语言单位整体与部分之间的关系,“整体越大,部分越小”。用最简单的数学公式来表达就是,整体是部分的一个固定比率递减函数,即:

经整理,可得:

这个公式表示部分的长度(y)是整体长度(x)的一个单调递减函数(Altmann,1980)。这个公式的一个简化形式是:

协同语言学中一般采用这个简化公式。

很明显音节的上一级单位是词,而音节的下一级单位可能是拼音字母或音位。我们对这两种情况分别进行验证。表2.4是“词—音节—拼音字母”门策拉层级数据,表2.5是“词—音节—音位”门策拉层级数据,它们都是基于文本1测量的。

表2.4 “词—音节—拼音字母”门策拉层级数据

表2.5 “词—音节—音位”门策拉层级数据

我们用Matlab 2012b对表2.4和表2.5中的数据进行幂律拟合检验,但结果显示都失败了。其余19个文本的检验结果同样如此。这意味着拼音字母或音位不是音节的下一级单位。我们分析,原因可能有两个:一是在口语中音节是最小的单位;二是可能有另一个我们不知晓的单位,例如像语音发音的时长(但这是否可以看作一个语言学意义上的单位,还值得进一步讨论)。

虽然汉语有一整套的拼音系统,但它却不是一种真正的表音语言。从上面的结果来看,基于音节的拼音字母数或音位数并不能很好地测量一个音节的长度,因为汉语是声调语言,普通话中有四声(另外加一个轻声)。因此,目前来看还不能较好地定义口语音节的长度。

关于汉语口语的词长测量方法,总结来看,虽然基于音节只能区分四个词长类(导致较小的自由度),但它是最佳的测量单位。

B.书面语中的词长测量

图2.5是基于笔画的词长分布及平均词频结果。

图2.5 基于笔画的书面语词长分布及平均词频(部分图)

我们使用Altmann-Fitter对图2.5的词长分布数据进行拟合,结果显示没有合适的分布模型。接下来对词长和平均词频的关系进行幂律拟合,结果显示20个文本皆拟合成功。

与其他语言的词长分布相比,如英语(Riedemann,1996),基于笔画的汉语词长分布具有太多的词长类(最多超过50),这是词长分布拟合结果都不成功的主要可能原因。而实际上,一个汉字的笔画数常常是被用来计算一个汉字的复杂度的(Köhler,2008)。

总的来说,笔画并不是书面语词长的最佳测量单位。

接下来,图2.6展示了基于部件的词长拟合结果。

图2.6 用Mixed Poisson模型对基于部件的书面语词长文本进行拟合(部分图)

基于部件的词长分布拟合结果显示,除了文本6,其他文本都有合适的词长分布模型。而且,混合泊松分布(Mixed Poisson)模型是适用文本最多的模型。所有文本拟合结果见表2.6。

这里需要说明的是如果一个文本有超过一个的适宜模型,我们首先选用Mixed Poisson模型。每个文本适用的分布模型可能不一样是一种正常情况,如Grotjahn &Altmann(1993)所说,很好的情况下才会有一个模型适合所有的语言,即使是一个作者的不同时间的文本,它们适用的模型也可能不一样。

表2.6 基于部件的书面语词长分布拟合结果

(续表)

从表2.6中可以看到,20个文本中19个有合适的分布模型,其中16个符合Mixed Poisson分布,2个符合Negative Hypergeometric,1个符合Hyperpascal分布。至于文本6,虽然没有通过统计检验的合适模型,我们还是使用Mixed Poisson对其进行了拟合。结果显示,R2(0.9666)和P(χ2)(0.0405)是可接受的,但C(0.0373)结果不优(计量语言学中一般认为C<0.02较优)。虽然文本6的统计结果不是很令人满意,但是单纯从统计学来说,它还是属于前文中提到的词长分布系列的。

接下来对词长分布和平均词频进行幂律拟合,结果显示,20个文本都符合幂律公式。图2.7是拟合情况。

图2.7 基于部件的词长和平均词频关系的幂律拟合(部分图)

(注:横坐标表示基于部件的词长,纵坐标表示某一词长类的平均词频。)

因此,基于部件测量词长符合协同语言学理论。

接下来我们需要验证门策拉层级。通常来说,部件的潜在下级单位是笔画,因此,下面我们验证“词—部件—笔画”是否符合门策拉定律,拟合见图2.8。

图2.8 “词—部件—笔画”门策拉层级检验(部分图)

(注:横坐标表示基于部件的词长,纵坐标表示某一词长的以笔画为单位的平均部件的长度。)

“词—部件—笔画”层级的门策拉定律检验结果显示,所有文本皆符合这一定律,即“词—部件—笔画”是一个符合门策拉定律的层级。

以上考察结果证明基于部件测量词长通过了我们提出的三个验证方法。部件应是汉语书面语词长的最佳测量单位。

Mixed Poisson是以部件测量词长分布的最佳模型。下面我们对这一模型略做介绍。该模型公式为:

(Popescu et al.,2013)

在这个公式中,x是观察词长;Px是理论词长;a, b, α是参数。

有趣的是,根据现有的研究成果,多种语言的词长分布模型也是Mixed Poisson(Popescu et al.,2013)。Riedemann(1996:270)指出:“20个抽取文本清晰地显示Mixed Poisson似乎是英语新闻文本适宜的词长分布模型。”为了对比口语和书面语,我们也将Mixed Poisson模型用于20个口语文本的词长分布数据拟合,结果跟书面语的一样好。那么我们应该怎么解释这一现象呢?

原因可能是书写在一定程度上改变了口语语言使用的范式。

Jisa(2004)认为按照书写形式来说是学术成功的关键。Strömqvist(2006)认为口语和书面语之间有交互作用,书面语的掌握可能会影响到口语的发展,反之亦如此。

下面我们再来看基于字的词长分布。

图2.9展示了基于字的书面语文本词长分布。

图2.9 基于字的书面语词长分布(部分图)

词长分布拟合结果显示,只有8个文本有合适的拟合模型,拟合结果见表2.7。

表2.7 8个书面语文本的基于字的词长分布拟合结果

20个文本中只有8个有合适的词长分布模型,说明基于字的词长分布拟合结果不好。有趣的是在这8个有合适的词长分布模型的文本中,2个是Extended Logarithmic, 6个是Extended Positive Poisson,正好与口语中的多少对比情形相反(见表2.3)。图2.10展示了部分文本拟合结果,参数等见表2.7。

图2.10 基于汉字的汉语书面词长分布拟合(部分图)

我们之前已经提到过汉语中一个汉字基本相当于一个音节,那么汉语口语和书面语基于字或音节测量词长分布的区别仅在于语体的差异。所以这里的汉语口语和书面语的词长分布差异或许正好揭示了它们在语体上的计量差异。这也或许是Wang(2013)使用汉字(音节)作为单位测量汉语书面语词长分布没有取得较好拟合度结果的原因之一。

接下来我们同样对词长和平均词频关系进行幂律拟合,见图2.11。

图2.11 基于汉字的汉语书面词长和平均词频关系幂律拟合(部分图)

如图2.11所示,幂律拟合结果很好,这说明符合协同语言学理论。接下来我们验证门策拉定律。上面我们已经证明“词—部件—笔画”符合门策拉定律,那么汉字只能放在词和部件之间,即我们要测试“词—字—部件”是否符合门策拉定律。表2.8是文本1的相关测量结果。

表2.8 书面语中“词—字—部件”门策拉层级数据

我们对表2.8中的数据进行拟合幂律,结果失败。这说明字不能被插进“词—部件—笔画”层级中去。

综上,部件是汉语书面语中最佳的词长测量单位。

然而,我们应该怎么解释基于汉字来测量书面语词长分布的结果比在口语中效果差很多呢?实际上,这可以从口语和书面语语体差异的角度来寻找原因。学界关于口语和书面语的研究很多,但是关于这两者的各自最主要特征还没有较一致的看法(Biber, 1988)。一个较为普遍的观点是书面语更为精致正式,句法上更为完整;口语碎片化、非正式,结构上更为简单(Williams,1970; Biber,1988)。

Kelih et al.(2005)强调词长更应被看作是体裁的特征,而非一个描述作者个人风格的有效变量。Berman & Nir(2010)也证明了词汇使用差异是口语和书面语的有效区分特征,并且,这种差异真实地反映了书写的组织精细特点。

因此,针对上面的问题,一个可能的计量语言学解释是,虽然在书面语中书写负担主要反映在一个字或词的部件多少上,但它也一定程度地反映在发音负担上。因为,从心理学角度来说,大部分人在书写时是有默念的习惯的。当然这只是一个猜测,还需要更多的心理学实验来证实。

表2.9和图2.12是几个口语和书面语文本的词长分布对比。

表2.9 汉语口语和书面语的对比用语料数据

图2.12 汉语口语和书面语基于字(音节)的词长分布差异对比(部分图)

从表2.9和图2.12可以看出,与书面语相比,虽然口语文本更大(以汉字总数计),但是它的字形数和词形数更少。这说明口语中喜欢重复用同样的词语,而书面语的词汇使用更为丰富多样。这与前人的理论探讨结论基本吻合。

C.小结

词长在计量语言学中是一个关键语言结构特性,但是如何测量一种语言的词长以及词长测量单位如何选择是一个尚未经系统研究过的问题。本节基于20个汉语口语文本和20个书面语文本,考察了汉语口语和书面语中词长测量的单位选择问题。基于本章提出的三个方法,得出结论如下。

(1)音节是口语中最佳的词长测量单位,而适用最广的词长分布模型是Extended Logarithmic。

(2)部件是书面语中最佳的词长测量单位,而适用最广的词长分布模型是Mixed Poisson。

(3)在汉语书面语中,“词—部件—笔画”是符合门策拉定律的汉语层级系列。

(4)本章提出的选择词长测量单位的三个方法被证明是行之有效的方法,即有合适的词长分布模型、符合协同语言学理论、符合门策拉定律。

(5)汉语口语和书面语存在交互效应:在口语中,用部件测量词长的词长分布也适用Mixed Poisson模型,而且,基于汉字(音节),也有近一半的书面语文本有合适的词长分布模型。这说明汉语口语受到了书面语的较大影响。

为了更进一步探讨汉语口语和书面语的词长分布差异,接下来我们使用一个计量学界最近刚提出的齐普夫—阿列克谢耶夫语言单位长度分布公式,来考察现代汉语口语和书面语的词长分布差异,所用语料同上。