【问题标题】:Searching a text in PDF file which is having more than 1000 pages搜索超过 1000 页的 PDF 文件中的文本
【发布时间】:2014-09-15 04:18:21
【问题描述】:

我正在开发一个网站。我想在 pdf 文件中搜索搜索字符串并在网站上显示结果。 PDF 文件可用,当用户输入一些文本进行搜索时,应显示结果。我已经尝试过使用“pdf object”,但这不是我想要做的事情。我的需要不是在网站上查看pdf,而是搜索pdf。

【问题讨论】:

  • 我曾经编写过类似这样的程序。这并不容易。我使用了 Libpoppler。
  • 你有做过的代码示例吗
  • 是的,但它很复杂,我不确定它是否会对您有所帮助。如果您正在运行 Debian、Ubuntu 等,请检索 derivations 软件包的源代码。我的代码在里面。
  • 更好地回答你的问题,这样你就不必试图破译我的旧密码:poppler.freedesktop.org
  • 如果您需要经常搜索相同的 PDF(或来自小型 PDF 集合的 PDF),您可能应该提取其文本并将其存储为某种快速搜索格式。特别是当搜索发生在服务器端时。

标签: javascript php pdf tcpdf fpdf


【解决方案1】:

Libpoppler 可以提供帮助。它解析 PDF。

Libpoppler 附带了pdftotext 命令行实用程序,它可能适合您的目的(它包含在Debian 软件包poppler-utils 中)。然而,更好的可能是pdfgrep,这是一种在 PDF 文件中搜索文本的工具,Libpoppler 不附带该工具。所有这些都在 Debian 中可用,也许在其他地方。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2010-10-24
    • 2011-07-03
    • 1970-01-01
    • 2017-10-10
    • 1970-01-01
    • 1970-01-01
    • 2017-12-12
    相关资源
    最近更新 更多