【发布时间】:2014-07-04 16:41:54
【问题描述】:
我目前使用内存推荐 API 在 mahout 中实现了推荐器。但是,我想转向使用 hadoop 的分布式解决方案,以便计算离线推荐。这是我第一次使用 hadoop,我正在寻找关于一些概念和 api 用法的说明。
目前,我对hadoop的了解很少,我认为正确的做法如下:
使用 apache Drill 之类的东西来使用用户和项目数据填充 hdfs。
在 mahout train 中对来自 hdfs 的数据使用推荐作业。
将 hdfs 中的结果数据转换为 solr 使用的索引分片
使用 solr 向用户群提供建议
但是,我正在寻找有关此设计的几个方面的说明:
如何以内存实时推荐中使用的方式使用记分器?
调用推荐作业的最佳方式是什么?
除了这两个之外,我还有其他问题,但这些问题的答案将是一个巨大的帮助。
【问题讨论】:
标签: hadoop machine-learning bigdata mahout mahout-recommender