1.2 自然语言处理的基本范式

自然语言处理的发展经历了从理性主义到经验主义,再到深度学习三个大的历史阶段。在发展过程中也逐渐形成了一定的范式,主要包括:基于规则的方法、基于机器学习的方法和基于深度学习的方法。这三种范式也基本对应了自然语言处理的不同发展阶段的重点。需要特别说明的是,虽然以上三种范式来源于自然语言处理的不同发展阶段,有明显的发展先后顺序,并且在大部分自然语言处理任务的标准评测集合中,基于深度学习的方法都好于基于机器学习的方法,更优于基于规则的方法,但是它们各有利弊,在实际应用中需要根据任务的特点、计算量、可控制性、可解释性等具体情况进行选择。

上述三种范式虽然有很大的不同,但是它们都有一个相同点,就是都需要针对特定的任务进行构建。面向不同的任务,按照不同的范式构建数据、模型等不同方面,所得到的算法或者系统仅能够处理特定的任务。在基于机器学习和基于深度学习的范式下,即使对模型预测目标进行微小修正,通常也都需要对模型进行重新训练。对于未知任务的零样本学习(Zero-shot Learning)能力,则很少在上述范式中进行讨论和研究。基于机器学习和基于深度学习的范式也很难实现模型对未知任务的泛化。随着2022年11月ChatGPT的发布,大模型所展现出来的文本生成能力以及对未知任务的泛化能力,使得未来的自然语言处理的研究范式很可能会发生非常大的变化。因此,本节中也将简要介绍大模型研究范式的雏形。