Chapter 2
第2章 业务数据探索:推荐算法闭环的起点与终点

通常在介绍推荐算法的书里,介绍完算法的整体架构和关键要素后,会直接切入正题介绍召回、粗排、精排、重排阶段的技术内容,这里之所以要留一整章介绍业务和数据探索,是因为基于过去在工业界长期实践的经验,我们深刻地感受到:从0开始搭建和完善一个信息流产品的推荐算法体系,我们需要做一些前瞻性的业务洞察和持续性的数据探索工作,才能让算法体系和优化迭代过程形成有效闭环。过去算法工程师拍脑袋、套论文公式、堆叠模型的“炼丹”模式早已被证明是一种落后的生产力,具备数据化运营的思维模式和洞察全局的业务抽象能力、用数据科学的方法论指导推荐算法的迭代优化,已成为当前阶段算法工程师的必要技能。

在推荐算法的实践中,推动业务增长的闭环如图2-1所示,通常分为定义问题、分析问题、建模优化、效果监控四个阶段。

1)定义问题:通过基于业务现象的统计数字看到的往往只是问题的表象,我们需要从表象中进一步分析和定位真实的用户诉求,揭露表象之下的真实的问题归因。在这一阶段中,我们往往从场景和人群出发对统计数字进行拆解,直到找到根源,比如电商APP中的客单价下降问题,是由于某个品类、某个人群的客单下降而引起全局指标的下降,还是因为分发策略的调整使得不同价格段的商品流量配比整体发生了变化。

图2-1 推荐算法推动业务增长的闭环

2)分析问题:数据分析提供决策支持的工作,包括:通过产品经营分析,定位当前的业务痛点和薄弱点,让业务痛点和薄弱点成为推荐算法的发力点;通过用户画像分析,挖掘产品的受众全貌和人群关键属性,而这些关键属性可能是后续召回和排序算法的关键特征(Feature);通过用户路径分析,发现用户的行为轨迹和停留、跳失情况,而这些停留和跳失行为背后的原因,就是后续模型要迭代优化的驱动目标(Motivation)。这部分是本章要展开介绍的主要内容。

3)建模优化:基于分析问题后得到的线索,优化推荐算法的深度学习模型,也是后面几章要展开介绍的内容。

4)效果监控:当完成了推荐算法体系的部署之后,也需要通过经营分析、画像分析、路径分析来检验我们的算法有没有改善经营环境、提升业务指标,所以,推荐算法的闭环,从数据分析开始,从数据分析结束。