信息流推荐多样性

一、问题现状

信息流产品中一个常见的问题是多样性越来越差,造成这种问题的原因在于机器学习算法本身。下面通过一副系统循环图来介绍多样性差的问题。
信息流推荐多样性

  1. 资讯库随机推荐文章,由于是按照全库比例采样,娱乐占比较大,随机推荐给用户的娱乐资讯偏多。
  2. 用户点击娱乐的概率变大,算法根据用户的反馈,会更加倾向于给用户推荐娱乐类的新闻。
  3. 在选资讯入库时,由于娱乐文章的曝光大,ctr置信度高,算法会淘汰比较差的文章,保留比较好的文章,导致资讯库中娱乐类的文章保留概率大。
  4. 由于还有协同过滤算法,导致推荐给其他用户的娱乐资讯也逐渐增多。

随着时间的推移,我们的推荐系统就是娱乐app了,没有其他类别了。

下图反映了去看看比例的变化。
信息流推荐多样性
6月12号的资讯曝光分类占比

信息流推荐多样性
11月18号的资讯曝光分类占比

由上图可以发现,娱乐占比已经从6月12日的29%上升到11月18日的45%;女人的占比从6%上升到25%。

二、解决方案

解决方案也很简单,只要将系统循环图中的正反馈切断或进行干扰即可。这里选择进行人工干扰。

信息流推荐多样性
为什么选择在资讯入库时进行干扰呢?由图中可以看到,其他推荐给用户的资讯都是算法根据用户兴趣进行计算的,进行干扰对用户体验和用户使用会产生较大的影响。资讯入库这里虽然也会对用户产生影响,但是,相对于其他途径影响较小。

具体怎样进行干扰?固定每个类别的每天资讯入库比例,按照类别比例进行选择。具体设置的类别比例如下:
信息流推荐多样性

三、多样性风险和应对策略

3.1 可能的风险

(1)人均阅读篇数和人均阅读时长下降

多样性执行加入了人工干扰,会将质量较好的娱乐类文章丢弃。预计会对目前的指标有影响,我们将这2个指标控制在下降3%之内。同时,资讯库类别占比达到预设值。

(2)新增用户对其他类别不感兴趣

多样性的改观会在一定程度上对新用户造成影响,如果新用户群体兴趣点只是娱乐,有可能会导致新用户转化降低。

(3)短时间内很难选出其他类别的高质量文章

短时间内,由于曝光不充分,在其他类别资讯选择上,置信度不是很高。选出的资讯质量并不能充分保证,其他类别的效果会明显不如娱乐。

3.2 应对策略

针对以上三种问题,应对策略如下:
(1) 逐步调整,不会一步到位,在控制类别比例的过程中,密切关注数据的变化。使得下降的幅度与多样性修正带来的好处达到一个平衡。

(2) 关注新用户的表现,新用户如果是兴趣多样性的用户,会提升新用户的点击转化。

(3) 随着时间的推移,曝光量的增加,其他类别的高质量文章选择将会越来越精确。

3.3 多样性评估

评估多样性应结合长期指标,目前列了如下,后续将继续跟踪:
信息流推荐多样性

四、 计划说明
计划12月4日与产品达成一致方案,若未按时出,则按此方案执行。

相关文章:

  • 2021-06-24
  • 2021-08-09
  • 2022-12-23
  • 2021-10-31
  • 2022-12-23
  • 2021-11-13
  • 2021-09-16
  • 2021-11-20
猜你喜欢
  • 2022-01-24
  • 2022-12-23
  • 2021-10-31
  • 2022-12-23
  • 2022-12-23
  • 2021-10-02
  • 2021-05-07
相关资源
相似解决方案