【发布时间】:2011-12-24 20:09:22
【问题描述】:
所以,我一直在考虑这些概念一段时间,我的理解非常基础。信息检索似乎是一个很少涉及的话题......
我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?
【问题讨论】:
标签: cluster-analysis document k-means