【发布时间】:2012-07-30 04:21:44
【问题描述】:
我想知道解决以下问题的好策略或算法:
我拥有的是: 一组来自不同来源的新闻文章,每篇文章带有时间戳和新闻类别的加权向量。
我想要的是: 来自不同来源、处理相同主题的文章集群。
我基本上想复制谷歌新闻的关键功能:呈现主题并为同一主题列出不同的新闻来源。
我已经为上面提到的新闻类别向量之类的文章提供了很好的功能,我需要知道的是选择正确的策略、聚类算法和库来进行聚类。
聚类算法应具备的特征:
- 没有固定数量的簇,(我事先不知道有多少 主题出现在我的文章集中)。
- 有效地将新文章映射到现有集群,或者创建一个新集群,如果 文章不足以适应现有的集群。
- 考虑相似性文章的时间戳。
- 如果集群过时并从基础文章集中删除,请解散集群。
我从未做过任何聚类,所以我不知道是否有提供上述功能的聚类算法,或者其中一些功能是否过于复杂或使聚类方式变慢,因此我需要为它们找到解决方法.
知道我正在将 mahout 视为一个用于聚类的库。是否有任何现成的开源实现可以使用 mahout 或其他库进行主题检测?
【问题讨论】:
-
你的数据集有多大? Mahout 是 Hadoop 上的数据挖掘和机器学习,这对于大数据来说应该很好,但在其他情况下可能会过大。如果您是数据挖掘新手并且喜欢 python,请查看 scikit learn,它有一个很好的文档 scikit-learn.org/stable