【问题标题】:Indexing PDF files with Symfony using Lucene使用 Lucene 使用 Symfony 索引 PDF 文件
【发布时间】:2010-02-19 12:43:25
【问题描述】:

我是一名 Symfony 开发人员,我的 Web 服务器是 Linux。我已经在使用 sfLucene 插件了。

在 Linux PHP 服务器上为 PDF 文件编制索引以进行搜索的最简单方法是什么?

  1. XPDF,已安装like this
  2. Apache Tika 通过SOLR sfLucene plugin branch
  3. 第三个选项?

谢谢!

【问题讨论】:

    标签: full-text-search lucene symfony1 apache-tika


    【解决方案1】:

    来自 Zend 背景,我通常推荐使用 Zend_Search_Lucene。 XPDF 示例非常简单明了,看起来很简单。 XPDF 已获得 GPL 许可 - 如果这符合您的需要,请选择 #1!

    ZF 可以轻松集成到您的 Symfony 项目中,例如Twitter Call

    【讨论】:

      【解决方案2】:

      有许多用于从 PDF 中提取文本内容的库。使用其中任何一个,您需要创建一个包含内容的 lucene 文档。最有用的是那些已经集成了 lucene 的。

      Apache PDFBox 可以直接从 PDF 文件中create a lucene 文档。它将包括 PDF 元数据字段以及文本内容。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2011-12-13
        • 2023-03-23
        • 2013-01-31
        • 2016-07-21
        • 1970-01-01
        • 2017-09-10
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多