【问题标题】:Mahout Clustering and descrete valuesMahout 聚类和离散值
【发布时间】:2013-07-27 11:47:41
【问题描述】:

我的数据包含一些离散字段,或者换句话说,枚举值。例如,在我的数据中,我有一个像“deviceType”这样的字段,它可以采用“Handheld”和“Desktop”这样的值。其他字符串属性可能是 url。然而,它们本质上缺乏距离的概念,因此不能被“矢量化”。此外,其中一些非常重要和有意义。如何将它们合并到聚类过程中?

我想到的一个解决方案是将它们拆分为新的布尔字段(维度)。有没有办法在 Mahout 中表示这一点?

我还有什么其他选择?

【问题讨论】:

    标签: mahout


    【解决方案1】:

    其他选项可能是让您自己的程序生成稀疏向量,可以将其作为输入给 mahout 进行聚类。 例如,输入:

    www.domain1.com/page1
    www.domain1.com/page2
    www.domain2.com/page1
    

    我们可以像这样将上面的url拆分成主机、路径、参数

    www.domain1.com page1
    www.domain1.com page2
    www.domain2.com page1
    

    我们可以有字符串字典,如下所示的整数键值对

    (www.domain1.com,  1)
    (page1, 2)
    (page2, 3)
    (www.domain2.com, 4)
    

    以及像下面这样的稀疏向量

    {1:1.0, 2:1.0}
    {1:1.0, 3:1.0}
    {4:1.0, 2:1.0}
    

    以上可以作为输入给mahout进行聚类。

    【讨论】:

      猜你喜欢
      • 2012-06-11
      • 2013-01-10
      • 2014-10-15
      • 2016-09-06
      • 2010-10-24
      • 2010-12-23
      • 2014-05-05
      • 2012-07-10
      • 2013-02-22
      相关资源
      最近更新 更多