序2

在最近的十年里,语音识别、语音合成和语音信号处理都有了长足的发展。这些发展一方面归功于研究人员在语音处理领域引入了一系列新的研究成果,比如序列上的区分度训练和基于深度学习的识别和合成框架,另一方面得益于用户在移动互联网时代对语音技术的应用需求和与之对应的海量数据和强大计算力,这些因素互相促进,极大地推动了语音技术的发展,并使得语音技术的性能指标在几年前就超过了用户的使用门槛,催生了大量的实际应用。

在技术和应用的发展过程中,工具一直占有着重要的地位,比如,TensorFlow、PyTorch、CNTK、MXNet等深度学习工具的出现极大地推动了深度学习的发展。而语音系统链路复杂,涉及的技术模块多样,所需的领域知识点繁多,对工程优化的要求高,好的工具就显得尤为重要。早期的语音识别的发展大大得益于HTK和Sphinx工具集,而在最近的十年里,Kaldi工具箱对于语音技术的普及和研发起到了举足轻重的作用。

Kaldi起源于2009年的约翰霍普金斯大学夏季研讨会,当时我在微软研究院语音与对话研究组的同事Dan Povey博士提出了Subspace Gaussian Mixture Model(SGMM),并在研讨会上组织研究了这个模型。作为这个研究的一个副产品,他们开始整理和开发一个新的语音技术工具箱Kaldi,并采用了开源的开发模式。经过十年的发展,Kaldi已经成为深度学习时代主流的语音技术工具箱,集成了大量的最新进展和最优脚本,极大地降低了语音技术的研究和应用门槛。

不过,Kaldi是一个持续发展中的开源项目,它的文档大大落后于代码。本书作者们基于自己多年的一线语音研发和Kaldi使用经验,深入浅出地介绍了语音识别各个模块的原理及Kaldi中各种实践技巧的来龙去脉和使用方法,极大地弥补了Kaldi文档方面的缺陷,降低了Kaldi的学习和使用门槛,有助于Kaldi的进一步推广和开发。

俞栋 IEEE Fellow,腾讯人工智能实验室副主任

2019年9月28日于西雅图