搜索超过 1000 页的 PDF 文件中的文本答案

【问题标题】：Searching a text in PDF file which is having more than 1000 pages搜索超过 1000 页的 PDF 文件中的文本
【发布时间】：2014-09-15 04:18:21
【问题描述】：

我正在开发一个网站。我想在 pdf 文件中搜索搜索字符串并在网站上显示结果。 PDF 文件可用，当用户输入一些文本进行搜索时，应显示结果。我已经尝试过使用“pdf object”，但这不是我想要做的事情。我的需要不是在网站上查看pdf，而是搜索pdf。

【问题讨论】：

我曾经编写过类似这样的程序。这并不容易。我使用了 Libpoppler。
你有做过的代码示例吗
是的，但它很复杂，我不确定它是否会对您有所帮助。如果您正在运行 Debian、Ubuntu 等，请检索 derivations 软件包的源代码。我的代码在里面。
更好地回答你的问题，这样你就不必试图破译我的旧密码：poppler.freedesktop.org
如果您需要经常搜索相同的 PDF（或来自小型 PDF 集合的 PDF），您可能应该提取其文本并将其存储为某种快速搜索格式。特别是当搜索发生在服务器端时。

标签： javascript php pdf tcpdf fpdf

【解决方案1】：

Libpoppler 可以提供帮助。它解析 PDF。

Libpoppler 附带了pdftotext 命令行实用程序，它可能适合您的目的（它包含在Debian 软件包poppler-utils 中）。然而，更好的可能是pdfgrep，这是一种在 PDF 文件中搜索文本的工具，Libpoppler 不附带该工具。所有这些都在 Debian 中可用，也许在其他地方。

【讨论】：