前言

2010 年,全球著名算法竞赛平台 Kaggle 举办了第一场竞赛 Forecast Eurovision Voting,奖金为 1000美元。2015 年,国内第一场算法竞赛在天池举办,比赛题目是阿里移动推荐算法,奖金为 30 万元人民币,吸引了 7000 多人参加。虽然国内的算法竞赛起步时间晚于国外,但从 2015 年开始,在全球举办的一共 1000 多场赛事中,中国就举办了 400 多场,并且场次的年均增长率高达 108.8%,有累计超过 120 万人参加,奖金累计达到 2.8 亿元人民币。在算法竞赛的举办场次拥有如此高增长率的情况下,其技术价值、业务价值和创新价值自然不容小觑。

说起本书,便要追溯到 2019年4月19 日人民邮电出版社的策划编辑陈兴璐在知乎上发给我的一则信息,其中讲到她看过我很多有关算法竞赛的文章,而且多次在算法竞赛中获奖,因此期待我能出版一本关于算法竞赛的图书。大概在 2018 年年初,我就已经创建了专栏,开始分享竞赛相关的文章,一路走来持续输出,目前的文章总浏览量达到百万。这次收到来信以及希望出版算法竞赛图书的邀请,是对我分享竞赛知识和已取得成绩的莫大认可,我欣然答应了写作邀请,并确定以《机器学习算法竞赛实战》作为书名。

为了完成本书,我邀请了我的竞赛老队员刘鹏(国内多次竞赛的冠亚军),陈兴璐编辑向我推荐了钱乾(Kaggle 竞赛平台的 Grandmaster,国内最早一批竞赛选手之一)。另外,考虑到每个人擅长的点不同,我们进行了明确的章节分工,以保证每个章节的质量。

对于本书的章节架构,我们除了进行仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议。算法竞赛本身涵盖的范围是很大的,我们的理念是剖析其最本质的内容,然后结合多个领域模块进行实战讲解,这也是本书的一大特色。本书分为以下五个部分。

第一部分——磨刀事半,砍柴功倍。这部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。

第二部分——物以类聚,人以群分。这部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要以用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即 Kaggle 平台的 Elo Merchant Category Recommendation。

第三部分——以史为鉴,未来可期。这部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析两个具体的实战案例,分别是天池平台的全球城市计算 AI 挑战赛和 Kaggle 平台的 Corporación Favorita Grocery Sales Forecasting。

第四部分——精准投放,优化体验。计算广告相关的业务大多是很好的竞赛题目,这部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是2018 腾讯广告算法大赛——相似人群拓展,以及 Kaggle 平台的 TalkingData AdTracking Fraud Detection Challenge。

第五部分——听你所说,懂你所写。这部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是Kaggle 平台上的经典竞赛 Quora Question Pairs。

本书是算法竞赛领域一本系统性介绍竞赛的书,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

本书的目标读者可以分为以下三类。

  • 对算法竞赛感兴趣的人。兴趣是最大的驱动力,为了让算法竞赛变得更加有趣和更加多样性,本书增加了很多扩展与探索性的内容,从多个方向、多个领域进行介绍和实战。
  • 想要研究机器学习或深度学习算法实战的人。实战的最佳方式之一是参加一场算法竞赛,加深对理论知识的理解,这也是本书的核心思想。
  • 计算机相关专业的人。机器学习或深度学习算法作为目前计算机行业一个火热的就业方向,值得去深入研究。本书提供了很好的实战讲解,帮助读者知其然,并知其所以然。

鉴于作者水平有限,难免存在有纰漏的地方,如果你在阅读过程中遇到任何问题,欢迎跟我们联系,我们的联系方式如下。

微信公众号:Coggle 数据科学

知乎 ID:鱼遇雨欲语与余

邮箱:fish_ml@foxmail.com

由于篇幅限制,书中只放了部分代码,完整的代码资源欢迎大家到图灵社区(iTuring.cn)本书主页“随书下载”中获取。

本书的写作过程并不轻松,我利用的基本上是晚上下班之后的时间,还要定期和刘鹏、钱乾进行线上会议,讨论近期的写作进度,以及相互审阅内容。这里我非常感谢刘鹏和钱乾所做的巨大贡献,他们具备的丰富的竞赛经验也是促使本书能够更加高质量完成的一个重要因素。

此外,本书的成稿还离不开其他很多人的帮助,虽然这些人没有成为作者之一,但也对本书做出了很大的贡献,在此一并表示感谢。

在此,还要特别感谢人民邮电出版社图灵公司的编辑陈兴璐、王军花和王彦,她们不仅给我们充分的时间完成这本书,还提出了很多宝贵的建议,她们对这本书的成功出版功不可没。

最后,感谢我的妻子,她在我写书的过程中给予了我很多支持和照顾。

谢谢你们!

 

王贺

2021年5月