【问题标题】:PDF to Text using PHP - Windows Server [duplicate]使用 PHP 将 PDF 转换为文本 - Windows Server [重复]
【发布时间】:2012-11-05 11:46:00
【问题描述】:

可能重复:
How to extract text from the PDF document?

问题/应用程序:我正在运行 Apache 的 Windows 2008 服务器上用 PHP/Java 构建系统。这个概念是用户将上传一个 PDF 文件。然后,我希望系统分析上传的 PFD 文件并使用我要设计的算法生成标题/描述。稍后我的搜索引擎将能够搜索存储的标题/描述以找到与搜索相关的 PDF。这将允许我搜索存储的 PDF 文件,而无需在搜索期间访问 PDF。

我需要一个脚本或代码,将 PDF 转换为文本并将其存储到一个数组或其他东西,然后我可以分解以获得我需要的东西。

我发现了其他使用 unix/linux 命令行技术的线程。但是,我还没有找到任何脚本可以让我在 Windows 上为 Apache 服务器执行所需的操作。

非常感谢我可以为此使用的任何建议或替代技术!

【问题讨论】:

标签: php search pdf text


【解决方案1】:

由于文本在其中的表示方式(作为二维表面上的绘图指令),将 PDF 文件转换为纯文本存在问题,尤其是当源是多列时。

您可以使用许多开源和专有工具,但在查看了所有工具后,我可以自信地声明没有一个适用于所有情况。 Google 搜索“PDF 到文本转换”会显示其中的大部分。

您可能还希望探索使用内置 PDF 转换的文本搜索引擎,如 SOLR 或弹性搜索,它们都是开源的并且基于 Apache Lucene。同样,谷歌搜索任何一个都会指向你各自的主页。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-12-05
    • 1970-01-01
    • 2011-01-04
    • 2010-10-18
    • 1970-01-01
    相关资源
    最近更新 更多