为 mahout 创建数据模型答案

【问题标题】：Creating data model for mahout为 mahout 创建数据模型
【发布时间】：2014-11-20 05:39:57
【问题描述】：

我正在尝试使用 mahout 构建一个项目-项目相似度匹配推荐引擎。数据集如下格式（属性为文本而非数字格式）

name : category : cost : ingredients

x : xx1 : 15 : xxx1, xxx2, xxx3

y : yy1 : 14 : yyy1, yyy2, yyy3

z : xx1 : 12 : xxx1, xxy1

因此，为了使用这个数据集进行 mahout 训练，将其转换为 mahout 接受的数字（作为 CSV 布尔数据集）格式的正确方法是什么。

【问题讨论】：

【解决方案1】：

使用 Mahout v1，编码可以是文本分隔/CSV 类型的文件。

name<tab>category-ID<space>cost-range-ID<space>ingredient-ID1<space>ingredient-ID2<space>etc...

所有 ID 都是字符串，因此您可能希望将 ID 分配给成本范围，而不是将实际成本用作数值。还要确保所有列都不能包含相同的 ID，因此成本范围 ID 与成分 ID 和类别 ID 不同。

在这个数据上运行mahout spark-rowsimilarity，你会得到表格的文件：

name<tab>name1:strength<space>name2:strength<space>etc...

这是每个项目的相似项目列表。列表已排序，强度是项目相似程度的 LLR（对数似然比）得分。

【讨论】：