【发布时间】:2012-06-11 06:36:05
【问题描述】:
我尝试使用 KMeansClustering 方法对一些文档进行聚类,并成功创建了聚类。我保存了与特定文档相对应的集群 ID 以供推荐。因此,每当我想推荐与特定文档相似的文档时,我都会查询特定集群中的所有文档,并从集群中返回 n 个随机文档。但是,从集群返回任何随机文档似乎都不合适,我在某处读到我们应该返回最接近相关文档的文档。
所以我开始搜索计算文档之间的距离,并偶然发现了 RowSimilarity 方法,该方法返回 10 个与每个文档最相似的文档,按距离排序。现在,这种方法依赖于 LogLikelihood 等相似性度量来计算文档之间的距离。
现在我的问题是这个。 考虑到这两种方法都使用相似度距离度量来计算文档之间的距离,聚类与 RowSimilarity 相比如何更好/更差?
我想要实现的是,我试图根据产品的标题和其他文本属性对产品进行聚类,以推荐类似的产品。任何帮助表示赞赏。
【问题讨论】:
标签: machine-learning cluster-analysis mahout