文档聚类基础答案

【问题标题】：Document Clustering Basics文档聚类基础
【发布时间】：2011-12-24 20:09:22
【问题描述】：

所以，我一直在考虑这些概念一段时间，我的理解非常基础。信息检索似乎是一个很少涉及的话题......

我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么？解析每个文档中的单词并创建一个巨大的“词袋”类型模型？然后我是否继续为每个文档创建字数向量？如何使用 K-means 聚类之类的方法比较这些文档？

【问题讨论】：

【解决方案1】：

尝试Tf-idf 作为初学者。
如果您阅读 Python，请查看 “使用 MiniBatchKmeans 聚类文本文档” 在scikit-learn:
“一个展示如何使用 scikit-learn 进行聚类的示例使用词袋方法按主题分类的文档”。
然后源代码中的feature_extraction/text.py 有非常好的类。

【讨论】：