PREFACE
前言

为何写作本书

随着人工智能的蓬勃发展,大量应用场景中都会涉及文本的内容理解技术。由于场景不同,目前文本内容理解没有统一的模板,解决起来并不容易。市场上有各种各样的机器学习、深度学习、自然语言处理等资料,但是都没有与业务场景紧密地联系起来,即使有联系也很笼统,并没有涉及实际业务场景中非常琐碎的细节问题。而只有把这些细节问题解决好,才能更好地发展业务。同时,市面上从问题的角度讲解算法等相关知识的书很少,而在业务场景中更多的是通过简单且匹配的技术解决业务问题。所以,我想把如何从问题的角度拆解问题,然后通过匹配的技术解决业务问题的方法分享给大家。

在很多人眼里,写书是一件很困难的事情。不过我很想挑战一下,想在这种痛苦的“煎熬”之后,“榨干”自己的思想,交上一份满意的答卷。而且我一直坚信写书是一件非常有意义的事情,不仅能将自己积淀的知识固化下来,还能在回顾技术的过程中闪现更多新的想法。最最重要的是,我觉得把自己的技术经验、业务经验、深度思考等分享给更多的人,让更多的人可以站在前人的经验上继续前行,是一件无私且伟大的事情。

这本书是我和自己读研时期的挚友共同完成的。写书不仅加深了我们之间的友谊,还让我们更加坚信,科技可以改变世界。

本书读者对象

1)统计学及相关专业的学生、IT从业者。本书的初衷是帮助从业者及相关专业的学生——拥有大量理论知识却缺乏实战经验的人员,将理论知识和实践联动起来,以更好地解决业务问题,达到对算法、技术、业务场景中的问题知其然且知其所以然的目的。

2)信息科学和计算机科学爱好者。对于信息科学和计算机科学爱好者来说,本书也是一本全面了解人工智能领域的应用、技术、场景的指南,书中没有太多晦涩难懂的数学公式,而是通过业务中的问题思考技术的使用。

3)人工智能相关专业的研究人员。

本书主要内容

自然语言处理的目的是让计算机能够理解人类的语言。本书旨在从文本内容理解的角度入手,详细介绍文本特征表示、内容重复理解、内容通顺度识别及纠正、内容质量、标签体系、文本摘要生成及文本纠错等内容。本书采用以应用贯穿始终的方式进行相关技术的介绍和说明。

具体来说,本书主要从以下几个方面介绍自然语言处理中的相关技术及其应用。

第1章详细介绍了文本特征的表示方法,包括离散型特征表示方法与分布型特征表示方法,以及词向量的评判标准。

第2章主要从应用的角度介绍了标题、段落和文章重复三种场景以及三种场景的具体实现。

第3章介绍了数据增强方法、句子通顺度识别方法以及纠正不通顺内容的方法。

第4章从应用的角度详细介绍了知识问答质量体系的搭建方法,方便大家后续在业务中快速实践。

第5章主要讲述了标签体系的原理及构建过程中用到的3种主要算法。

第6章介绍了文本摘要生成中两类流行的方法,包括抽取式文本摘要和生成式文本摘要,还介绍了文本摘要的几种常用数据集以及文本摘要的评价方法。

第7章介绍了文本中错误的类型、来源,文本纠错常用的方法与框架,并介绍了常用的文本纠错工具的安装以及使用方法。

本书内容特色

本书的特色在于详细且全面地介绍了目前流行的NLP算法,给出了丰富的理论知识,并结合代码进行讲解,以带领读者更好地理解算法。另外书中还介绍了如何在实际业务中高效地解决问题,使读者站在更高的角度,更加全面且具体地了解NLP技术。

资源和勘误

由于作者水平有限,书中难免存在一些错误或者不准确的地方,恳请读者批评指正。读者可通过发送电子邮件到617803337@qq.com反馈建议或意见。

致谢

感谢家人对我的理解和支持。当我有出版一本书的想法的时候,他们一直鼓励我,相信我是在做一件非常有意义的事情。

感谢我的挚友谷雪、孟子尧、张朋莉愿意和我一起做这件有趣的事情。在与大家合作的过程中我成长了很多。

感谢颖颖老师对我的厚爱,范红星对我的陪伴,感谢我生命中的所有老师及让我成长的人。

感谢机械工业出版社的出版工作者。有了大家的辛勤付出,本书才得以顺利面世。

这本书是友谊、工作以及科研成果的结晶,也是我们并肩作战的见证,希望它可以将我们的实践经验、科研经验固化下来,帮助更多的人少走弯路,更快地成长。

谨以此书献给我们的青春,献给热爱算法并为之奋斗的朋友们。因为相信,所以坚定。

李明琦