1.3.2 推荐算法的生态建设

上一节在策略阶段的内容里,我们提到了生态建设对推荐算法的重要性,实际上生态建设不仅仅是策略阶段的工作,更应该贯穿在推荐算法体系的全链路里。在实践中,我们都深有体会,当片面地追求点击率、追求消费时长和GMV的短期增长时,往往会陷入模型的局部最优,陷入阶段性增长之后的瓶颈期,不利于推荐生态的长期繁荣。当用户的推荐内容越来越精准、实时性越来越高时,推荐的内容范围就会相对越来越窄,进入所谓的信息茧房(Echo Chamber),不利于用户的长期体验。而高转化的内容往往来自于头部作者(商家),头部作者(商家)就会得到更多的自然流量,马太效应下,中小作者(商家)和新作者(商家)的曝光机会被挤压,发展受限,产品对少量头部作者(商家)的依赖会更加严重,这也是很多百万级DAU的APP最大的生存危机:消费者对头部作者(商家)的忠诚度超过对产品的忠诚度,这导致生态系统逐渐脆弱。在内容创作上,过分地追求高点击,会鼓励惊悚标题、露骨封面、低俗内容的流行,内容的同质性和水分越来越高……这些都是我们在追求短期目标的同时,需要更加关注的与APP长期发展息息相关的事项。下面,简单介绍下生态建设中的几项重要工作。

1.冷启动

推荐算法的优势是利用海量数据训练模型,匹配用户和物品内容,但如果物品是新上架的、用户是第一次登录APP,没有历史交互数据,就会出现“巧妇难为无米之炊”的情况,因此就衍生出了用户和物品的冷启动问题。关于冷启动问题的推荐建模,我们将在第9章分别从3个角度详细介绍相关的模型,在本章先进行简要的内容铺垫。

(1)用户冷启动

当一个新用户进入APP,我们在不知道用户真实兴趣的情况下依然希望能够尽量给用户推荐他可能喜欢的物品,通常的做法如下。

1)用户反馈的利用。在登录提示页要求用户输入符合兴趣偏好的内容标签,因为是用户自己输入的所以准确率高,但缺点是对产品体验带来一定干扰,用户的输入意愿不会很高。

2)本地化的热度和新内容推荐。推荐热门内容是最“安全”的做法,热门内容之所以热是经过了实践考验的,带有很强的高转化的“先验”,而新内容推荐则利用了用户喜欢新兴事物的心理。我们可以进一步结合用户访问时的地域信息,让热门内容带有一定的群体性因素。

3)基于探索和利用(Exploration & Exploitation, E&E)问题的解法。这也是平台冷启动的常规做法,不知道用户喜欢什么,就牺牲一些流量试着推荐一些偏随机的内容,再根据用户的反馈调整推荐内容,通过策略动态调整“探索”和“利用”得到整体回报的最大化。我们在第9章中会以LinUCB算法为例,详细介绍“探索”和“利用”问题的概念及它们在冷启动场景中的作用。

4)充分挖掘上下文信息。上下文信息包括用户的注册信息(终端设备类型、注册渠道来源)、用户在投放广告落地页的点击行为、新旧用户之间的社交关系等,因为新用户的特征少、行为稀疏,所以一般会专门针对新用户训练一个独立的排序模型。在实践中,我们发现以下3类上下文特征的效果相对比较明显:

● 能在一定程度反映用户调性、购买力的终端品牌型号;

● 用户注册渠道来源的投放广告素材(用户看了什么样的广告素材才下载注册了APP,能反映用户的内容偏好);

● 新旧用户之间的社交关系。

(2)物品冷启动

对于新物品的冷启动,通常的方法是充分利用历史积累的预训练模型和先验知识。

1)基于内容理解的信息挖掘。充分利用推荐算法之外的内容理解相关的算法,比如,物品描述的实体识别(NER)、视频理解等方法,挖掘物品相关的属性标签,训练内容理解Embedding,我们可以通过内容相似性,构建新旧物品之间的相关性关系,利用用户对旧物品的偏好将新物品推荐出去。除了内容理解算法之外,第9章我们还会详细介绍DropoutNet、MWUF等深度推荐建模的方法,用它们构建新旧物品的相关性,帮助新物品的个性化推荐。

2)有了上述推荐的反馈数据,可以得到部分用户对冷启动物品的反馈,这部分反馈数据可以用来帮助冷启动物品在召回建模中进一步扩大在用户群体中的渗透率。

2.流量调控

流量调控是指在产品生命周期的各个阶段,综合考虑阶段性业务目标和长期的用户体验,在推荐算法的基础上,对流量进行一定程度的再分配,包括短期的流量扶持和长期的热门打压。

流量扶持,是指在特定阶段对特定的内容(或创作者、商家等)以一定的流量倾斜,使其有更大的发展空间。这通常是从生态健康的角度考虑的,当平台流量较大而头部创作者规模较小时,就容易出现用户对创作者的忠诚度超过对产品的忠诚度的情况,这对APP生态的健壮性是很大的风险,因此必须通过一定的流量扶持让创作者百花齐放。

热门打压,不是为了限制热门,而是从用户体验角度出发的方法和策略。热门内容点击率高,短期指标表现好,但如果热门内容的规模过小,很容易被消费完后让用户产生审美疲劳,热门内容过于单一,也会变相地鼓励生产者对少量热门话题生产大量同质化的内容,这两者都不利于用户长期的留存率,因此应该适当地打压热门,让“次热门”的内容有更多的曝光,有机会成长为新的热门。

流量调控通常的方案是在推荐算法的召回层和策略层通过一些启发式的方法,经过短期和长期业务目标检验的调控方法。其中核心的问题是如何进行流量的保障,对需要调控的内容给予确定性的流量,我们将在第9章详细介绍在流量保障方案中最常见的PID算法。

3.内容品控

物品的内容品质控制是偏向于“风控”领域的工作,并不属于推荐算法的职责,但因为涉及APP生态健康,也会和推荐的内容质量息息相关,所以也需要推荐算法协同配合。质量管控的本质是,APP上的创作者都是“趋利”的,期望用最小的投入获得最大的回报,另外,具有“惊悚标题、低俗内容”的内容往往比高质量的内容有更高的点击率,但前者的生产成本会远小于后者,如果不进行有效的内容品质控制,会使“标题党”和低俗内容充斥信息流中,不仅严重影响用户体验,而且长此以往容易“劣币驱逐良币”,让优质内容的创作者的发展空间受到挤压,低俗内容不加限制地发展还会给APP带来潜在的法律风险,严重阻碍平台的长期发展。

推荐算法配合质量管控可以做的工作是从内容理解和分发策略上的协同,分析“标题党”、低俗内容的指标表现,比如对于短视频来说,点击率高,但播放时长远低于平均,对于电商来说,点击率高,转化率低,在这个基础上,可以在排序算法中同时将这些指标作为优化目标,或者将这些综合指标拟合为一个综合的分数,来代替只用点击率作为热门内容的统计指标。

4.突破信息茧房

信息茧房的概念最早是由美国学者桑斯坦在其著作《信息乌托邦》中提出的,桑斯坦认为在互联网信息的传播过程中,因为用户个体需求的独特性及认知的局限性,通常只会注意令自己愉悦的信息,长此以往,会将自身桎梏于像蚕茧一般的“茧房”中。同样,在推荐算法中,随着特征精细度和模型复杂度及准确性的提升,算法在不断迎合用户需求的同时,也带来了视野的窄化和兴趣的聚焦,久而久之,用户就会发现很久没有看到令自己“意外而又惊喜”的推荐内容了,用户的兴趣和视野被桎梏在了“茧房”里。

关于如何破解这个问题,我们将在第9章重点介绍。