在对自然语言文本进行分析前,通常需要对文本进行规范化处理。文本的规范化处理主要包含句子切分、词语切分、词语规范化等步骤。由于绝大部分语言的句子结束符数量有限,符号歧义性相对容易处理,因此句子切分通过词典结合模板或者有监督分类算法都可以达到较高的准确率。词语规范化(Word Normalization)任务是将词或词形转化为标准形式,针对有多种形式的词使用一种单一的形式进行表示。本节中主要讨论词语的规范化问题,包括词语切分、词形还原和词干提取。