LightFM：权重和样本权重答案

【问题标题】：LightFM: Weights and Sample WeightsLightFM：权重和样本权重
【发布时间】：2018-01-19 22:17:08
【问题描述】：

我希望深入了解以下 LightFM 实施的权重：

现在，如果我与不同的content_types 进行用户交互，即text、video，并且我们不想在推荐时真正区分它们？
- 我必须为每种媒体类型制作单独的模型吗？如果我创建一个模型，如果text 的交互是一个布尔值，如点击 1.0/0.0 并且video 的交互在 percentage_video_completed 中，是否会有所不同？如果用户在 15 秒的视频中看到 10 秒，我可以将权重分配为 0.667 吗？

【问题讨论】：

【解决方案1】：

您可以使用sample_weights 来衡量任何观察的重要性，就像您可以将sample_weight 传递给sklearn classifier。

大于 1 的权重将为该观察提供额外的权重；小于 1 的权重会降低它对模型的重要性。

这是通过按其权重缩放该观察的学习率来实现的。

您不必创建单独的模型：两种类型的交互可以愉快地嵌入到同一个模型中。

在 LightFM 模型中，交互矩阵中的数据是二进制的。您应该使用样本权重来表达您对给定交互是积极的信心。这可以是电影的观看百分比：但是请注意，如果观看百分比通常低于 1.0，您的模型将更加重视文本交互。

【讨论】：

谢谢。因此，为了确认我的理解，如果我只是考虑文本交互并且交互是二元的，那么如果我开始使用交互频率，例如不。点击次数，例如一个人很喜欢的一篇文章有 10 分，另一篇则有 1 分，那么在这个二进制矩阵中不会有任何区别，两者会被认为是相同的吗？
这是正确的。如果你想考虑点击次数，你应该使用权重矩阵（但要小心非常大的权重，这会影响拟合的稳定性）。