前言

历史的车轮滚滚向前,事物总是处于不断的发展变化中,不断有新事物兴起,带来更加先进的生产力。对于互联网来说,内容分发和深度学习正是这样的新事物。

深度学习的兴起

自从互联网(尤其是移动互联网)兴起后,其用户呈现指数级增长。在互联网里,每个用户都可以自由地发布文章、图片、视频等内容,从而导致互联网上产生了浩如烟海的内容。这些内容是如此之多,以至于互联网公司需要开发一套复杂的检索系统来为用户推送他们可能感兴趣的内容。为用户提供内容的业务可以称之为内容分发,用户通过搜索引擎查询相关知识,是主动的内容分发;用户打开短视频平台,观看平台推荐的各种短视频,是被动的内容分发。内容分发的三大核心业务即为搜索、广告和推荐系统。

内容分发业务的猛烈发展带来了检索匹配算法的快速进步。2011年,笔者第一次接触算法工作,召回的主流算法是协同过滤,排序用的是LR和GBDT。然而到了2015年,深度学习已经被引入到互联网业务中,并且四处开花,全面统治了互联网业务的算法系统。

与此同时,学术界对深度学习算法的研究也开展得如火如荼,各种基于深度学习的算法创新层出不穷。但是,在大型的互联网业务中,算法的核心目标是预估点击率、转化率、购买金额、观看时长等业务指标,这些算法任务面临的场景具有两个特点——海量的样本数据和高维稀疏的特征体系。因此在互联网业务中涌现出了很多独具特色的算法创新,譬如大规模的特征体系、模型的分布式训练/实时训练,以及与业务紧密结合的模型结构(如阿里的行为序列模型系列、百度的莫比乌斯模型)等。

本书主要内容

本书旨在向读者介绍在实际的互联网内容分发业务中,检索匹配算法的基本理论知识,以及深度学习模型实践。书中不仅详细介绍了检索匹配算法的各种分类和演进历史,以及模型上线所需要的样本准备、特征抽取、模型训练和预测服务等环节,并在此基础上,介绍了互联网业务中常用的高级网络结构和分布式机器学习。

纸上得来终觉浅,绝知此事要躬行。内容分发算法系统中充满着大量细节,必须理论结合代码实现才能有清晰的认识。本书提供了一个深度学习模型上线所需的全套代码(包括特征抽取、单机/分布式模型训练、模型预测、模型保存与加载等)供读者进行学习参考,并以淘宝广告点击率预估任务为示例详细介绍了每一个模块的实现和效果。

本书为读者提供了全部案例源代码下载和超过180分钟的高清学习视频,读者可直接扫描二维码观看,也可以关注封底“IT有得聊”微信公众号下载(详见本书封底)。

希望本书所讲述的内容能够对从事算法相关研究或工作的读者有一些帮助。

致谢

特别感谢快手孔莹、B站李晓伟在深度学习理论与应用、分布式机器学习实现等方面与笔者进行的诸多探讨,令笔者受益良多。

最后,非常感谢机械工业出版社的编辑老师在本书成书过程中的大力帮助和图书出版方面的专业指导。

康善同

2022年1月