【问题标题】:Whoosh: Indexing MS documents, PDFsWhoosh:索引 MS 文档、PDF
【发布时间】:2011-10-14 13:01:16
【问题描述】:

我想使用 python 进行文档搜索。 Solr 是不行的,因为 Java 托管是一个限制。

所以嗖嗖声似乎是显而易见的选择。但它似乎不能原生索引 doc 或 pdf 文件(就像 Solr 那样)。让它直接索引这些文件的方法是什么?

【问题讨论】:

    标签: python whoosh


    【解决方案1】:

    Whoosh 只需要从这些文档中提取的文本。虽然 Whoosh 库不会为您提取文本,但有一些 Python 库可以为您提取文本,例如 pdf miner、catdoc 或 antiword。

    有关更多信息,请参阅这两个讨论:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-10-07
      • 2012-09-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-16
      相关资源
      最近更新 更多