【发布时间】:2013-07-27 11:47:41
【问题描述】:
我的数据包含一些离散字段,或者换句话说,枚举值。例如,在我的数据中,我有一个像“deviceType”这样的字段,它可以采用“Handheld”和“Desktop”这样的值。其他字符串属性可能是 url。然而,它们本质上缺乏距离的概念,因此不能被“矢量化”。此外,其中一些非常重要和有意义。如何将它们合并到聚类过程中?
我想到的一个解决方案是将它们拆分为新的布尔字段(维度)。有没有办法在 Mahout 中表示这一点?
我还有什么其他选择?
【问题讨论】:
标签: mahout