如何可视化大型文档集？答案

【问题标题】：How do I visualize a large document set?如何可视化大型文档集？
【发布时间】：2012-07-02 20:33:00
【问题描述】：

我有 100 Gb 的文档。我想对其进行描述并大致了解流行的主题。

文档是纯文本。

我曾考虑使用像 Google 桌面这样的工具进行搜索，但它太大而无法真正猜测要搜索的内容，而且执行足够多的搜索以覆盖整个集合太费时。

是否有任何免费可用的工具可以对大型文档数据集进行聚类？

有没有可以可视化此类集群的工具？

【问题讨论】：

【解决方案1】：

对于基本的 NLP 方法，您可以将每个文档表示为基于词频的向量，然后使用贝叶斯或其他方法（SVM、k-means 等）对文档向量进行聚类。

【讨论】：

【解决方案2】：

您需要研究进行自然语言处理的工具。基本上，您可以相当可靠地确定（使用统计工具）文档的语言（参见http://en.wikipedia.org/wiki/N-gram）和话语领域（参见http://en.wikipedia.org/wiki/Support_vector_machine）。如果您从维基百科开始，应该可以使用一些工具。

【讨论】：