【问题标题】:strategies and clustering algorithms for topic detection主题检测的策略和聚类算法
【发布时间】:2012-07-30 04:21:44
【问题描述】:

我想知道解决以下问题的好策略或算法:

我拥有的是: 一组来自不同来源的新闻文章,每篇文章带有时间戳和新闻类别的加权向量。

我想要的是: 来自不同来源、处理相同主题的文章集群。

我基本上想复制谷歌新闻的关键功能:呈现主题并为同一主题列出不同的新闻来源。

我已经为上面提到的新闻类别向量之类的文章提供了很好的功能,我需要知道的是选择正确的策略、聚类算法和库来进行聚类。

聚类算法应具备的特征:

  1. 没有固定数量的簇,(我事先不知道有多少 主题出现在我的文章集中)。
  2. 有效地将新文章映射到现有集群,或者创建一个新集群,如果 文章不足以适应现有的集群。
  3. 考虑相似性文章的时间戳。
  4. 如果集群过时并从基础文章集中删除,请解散集群。

我从未做过任何聚类,所以我不知道是否有提供上述功能的聚类算法,或者其中一些功能是否过于复杂或使聚类方式变慢,因此我需要为它们找到解决方法.

知道我正在将 mahout 视为一个用于聚类的库。是否有任何现成的开源实现可以使用 mahout 或其他库进行主题检测?

【问题讨论】:

  • 你的数据集有多大? Mahout 是 Hadoop 上的数据挖掘和机器学习,这对于大数据来说应该很好,但在其他情况下可能会过大。如果您是数据挖掘新手并且喜欢 python,请查看 scikit learn,它有一个很好的文档 scikit-learn.org/stable

标签: cluster-analysis mahout


【解决方案1】:

我认为以下论文是我在不知道聚类数量的情况下遇到的主题检测的最佳方法之一。

http://www.uni-weimar.de/medien/webis/research/events/tir-08/tir08-papers-final/wartena08-topic-detection-by-clustering-keywords.pdf

【讨论】:

  • 上面链接指向的页面似乎被删除了。
猜你喜欢
  • 2014-05-03
  • 2012-04-17
  • 1970-01-01
  • 2018-05-03
  • 2012-12-11
  • 2012-10-01
  • 2013-08-14
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多