【问题标题】:extract text from pdf in php is not working for all PDF files在php中从pdf中提取文本不适用于所有PDF文件
【发布时间】:2016-11-19 06:01:16
【问题描述】:

我正在从 PDF 文件中提取文本。这是代码:

<?php

require("PdfToText.php");

$file   =  'SamplePF' ;
$pdf    =  new PdfToText ( "$file.pdf" ) ;
echo ( $pdf -> Text ) ;

?>

此类适用于某些 PDF 文件。 这个类的问题是:

  1. 对于某些 PDF 文件,它会从随机页面/行中获取文本,而不是 页面顺序。
  2. 对于某些 PDF 文件,它没有显示任何结果。
  3. 对于某些 PDF 文件,它只提取一两行。

请提出一些解决方案。谢谢!

【问题讨论】:

  • 一些 PDF 文件较旧,不再使用相同的结构。如果您对此有任何疑问,请联系 Adob​​e,了解他们为什么没有为此发布公共 API。

标签: php pdf text-extraction pdftotext


【解决方案1】:

我不确定这可能是您无法提取的确切问题,但我在从 pdf 中提取数据时也遇到了类似的问题。有时PDF文件被所有者密码锁定,这对文档施加了一定的限制,不允许更改,内容复制或提取等,以保护其版权问题。 Check this link for more info on owner passwords.

因此,您可以先尝试删除所有者密码,然后尝试提取此类 pdf。要删除所有者密码,有许多在线可用的工具,您可以选择最适合您的工具。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-10-05
    • 2011-04-30
    • 1970-01-01
    • 2015-07-28
    • 1970-01-01
    相关资源
    最近更新 更多