【问题标题】:How do I visualize a large document set?如何可视化大型文档集?
【发布时间】:2012-07-02 20:33:00
【问题描述】:

我有 100 Gb 的文档。我想对其进行描述并大致了解流行的主题。

文档是纯文本。

我曾考虑使用像 Google 桌面这样的工具进行搜索,但它太大而无法真正猜测要搜索的内容,而且执行足够多的搜索以覆盖整个集合太费时。

是否有任何免费可用的工具可以对大型文档数据集进行聚类?

有没有可以可视化此类集群的工具?

【问题讨论】:

  • 什么样的文件?结构化文件 ?纯文本?
  • 其实,哪种类型真的重要吗?基于一些简单的文件类型检查,任何文档类型都可以通过适当的过滤器转换为文本。

标签: search visualization data-mining cluster-analysis


【解决方案1】:

对于基本的 NLP 方法,您可以将每个文档表示为基于词频的向量,然后使用贝叶斯或其他方法(SVM、k-means 等)对文档向量进行聚类。

相关答案见somewhat similar SO question

【讨论】:

    【解决方案2】:

    您需要研究进行自然语言处理的工具。基本上,您可以相当可靠地确定(使用统计工具)文档的语言(参见http://en.wikipedia.org/wiki/N-gram)和话语领域(参见http://en.wikipedia.org/wiki/Support_vector_machine)。如果您从维基百科开始,应该可以使用一些工具。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-03-19
      • 2021-07-06
      • 2014-04-22
      • 2010-10-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多