【问题标题】:What is the right way to increment mahout recommender model?什么是增加 mahout 推荐模型的正确方法?
【发布时间】:2019-03-30 11:03:54
【问题描述】:

我有一个用户-项目对流,根据最后 6M 记录保存一个块,并每分钟更新一次。我不喜欢这些重建之间的一些重要数据可能未被使用。例如,新用户加入了系统,但模型还不知道他。我找到了 PlusAnonymousConcurrentUserDataModel 类,它允许向模型添加少量条目并获得更准确的推荐。文档提出了更多受限的使用场景:我必须:

  • 分配临时用户
  • 添加额外数据
  • 获得推荐
  • 然后释放用户和额外数据

是否可以使用这个类来迭代收集数据,直到模型实际上被计时器重建?这样做的正确方法是什么? PlusAnonymousConcurrentUserDataModel 似乎有点不同的目的。

【问题讨论】:

标签: mahout mahout-recommender


【解决方案1】:

Mahout 的这一部分非常古老,已被弃用。我认为它甚至不在 0.14.0 版本中,您必须从源代码构建。

Mahout 现在使用一种全新的技术进行推荐。新算法称为Correlated Cross-Ocurrence (CCO)。您使用的旧方法没有像您概述的那样使用实时输入。只要有某种形式的行为数据,CCO 就可以向模型中没有内置的匿名用户推荐。

实现 CCO 的架构需要数据库中的数据存储和 KNN 引擎(搜索引擎)来进行模型查询。这些都打包在Apache PredictionIO + Universal Recommender 模板中。

可以在此处找到对 Universal Recommender 本身的社区支持:https://groups.google.com/forum/#!forum/actionml-user 或其他项目的邮件列表。

【讨论】:

  • 尝试了 predictionIO,但由于诸如此类的严重错误而无法安装:github.com/actionml/PredictionIO
  • 您应该从 Apache 存储库安装 Apache PredictionIO。该链接是一个旧叉子。请参阅此处的说明:predictionio.apache.org 和此处的回购:github.com/apache/predictionio,如上述答案中所述。
  • 使用了那个 repo,但安装程序有一个对网站的引用,但该引用丢失了。这个 repo 没有问题按钮,所以我报告给原来的。
  • Apache 存储库由 Apache 使用其 OSS 规则进行管理,这意味着您提交 JIRA 错误报告但不知道您在谈论什么错误。 Apache 是一个大型组织,这是一个顶级项目。在我看来,您没有遵循 Apache 软件的典型用法。有关安装说明,请参阅 PredictionIO 站点。不要指望 repo 会记录项目,这里有一个完整的站点可以做到这一点:predictionio.apache.org
  • 看起来 bug 链接被 SO 破坏了,让我们再试一次:github.com/actionml/PredictionIO/issues/20
猜你喜欢
  • 2023-02-18
  • 1970-01-01
  • 2017-07-29
  • 1970-01-01
  • 2011-10-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-12-04
相关资源
最近更新 更多