【问题标题】:Document Clustering Basics文档聚类基础
【发布时间】:2011-12-24 20:09:22
【问题描述】:

所以,我一直在考虑这些概念一段时间,我的理解非常基础。信息检索似乎是一个很少涉及的话题......

我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?

【问题讨论】:

    标签: cluster-analysis document k-means


    【解决方案1】:

    尝试Tf-idf 作为初学者。
    如果您阅读 Python,请查看 “使用 MiniBatchKmeans 聚类文本文档” 在scikit-learn:
    “一个展示如何使用 scikit-learn 进行聚类的示例 使用词袋方法按主题分类的文档”。
    然后源代码中的feature_extraction/text.py 有非常好的类。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-04-15
      • 1970-01-01
      • 2012-03-01
      • 2013-07-05
      • 2015-04-27
      • 2021-01-25
      • 2015-11-06
      • 1970-01-01
      相关资源
      最近更新 更多