【问题标题】:Creating data model for mahout为 mahout 创建数据模型
【发布时间】:2014-11-20 05:39:57
【问题描述】:

我正在尝试使用 mahout 构建一个项目-项目相似度匹配推荐引擎。数据集如下格式(属性为文本而非数字格式)

name : category : cost : ingredients

x : xx1 : 15 : xxx1, xxx2, xxx3

y : yy1 : 14 : yyy1, yyy2, yyy3

z : xx1 : 12 : xxx1, xxy1

因此,为了使用这个数据集进行 mahout 训练,将其转换为 mahout 接受的数字(作为 CSV 布尔数据集)格式的正确方法是什么。

【问题讨论】:

    标签: java eclipse machine-learning mahout-recommender


    【解决方案1】:

    使用 Mahout v1,编码可以是文本分隔/CSV 类型的文件。

    name<tab>category-ID<space>cost-range-ID<space>ingredient-ID1<space>ingredient-ID2<space>etc...
    

    所有 ID 都是字符串,因此您可能希望将 ID 分配给成本范围,而不是将实际成本用作数值。还要确保所有列都不能包含相同的 ID,因此成本范围 ID 与成分 ID 和类别 ID 不同。

    在这个数据上运行mahout spark-rowsimilarity,你会得到表格的文件:

    name<tab>name1:strength<space>name2:strength<space>etc...
    

    这是每个项目的相似项目列表。列表已排序,强度是项目相似程度的 LLR(对数似然比)得分。

    这里的文档:http://mahout.apache.org/users/recommender/intro-cooccurrence-spark.html

    【讨论】:

      猜你喜欢
      • 2012-12-18
      • 1970-01-01
      • 2011-11-30
      • 1970-01-01
      • 2013-05-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-12-22
      相关资源
      最近更新 更多