【发布时间】:2012-07-02 20:33:00
【问题描述】:
我有 100 Gb 的文档。我想对其进行描述并大致了解流行的主题。
文档是纯文本。
我曾考虑使用像 Google 桌面这样的工具进行搜索,但它太大而无法真正猜测要搜索的内容,而且执行足够多的搜索以覆盖整个集合太费时。
是否有任何免费可用的工具可以对大型文档数据集进行聚类?
有没有可以可视化此类集群的工具?
【问题讨论】:
-
什么样的文件?结构化文件 ?纯文本?
-
其实,哪种类型真的重要吗?基于一些简单的文件类型检查,任何文档类型都可以通过适当的过滤器转换为文本。
标签: search visualization data-mining cluster-analysis