【问题标题】:removing password for multiple PDF files [closed]删除多个 PDF 文件的密码 [关闭]
【发布时间】:2008-10-24 10:14:00
【问题描述】:

所以我有大量的 PDF 文件需要从中提取文本。 这些文件是加密的,但我知道它们的密码。我正在寻找一种方法来自动化提取文本的过程。

我可以在 Acrobat Professional 中手动打开文件,通过输入密码删除安全性,然后另存为 .txt 文件。但是,无法通过批处理 600 个文件来自动执行此操作。

我正在寻找一些工具来帮助解决这个问题。我对 Perl 很好,所以我尝试了 CPAN 的各种 PDF 处理模块,但它们无法读取加密的文档。任何人对此有任何解决方案?

【问题讨论】:

    标签: pdf text encryption


    【解决方案1】:

    看看pdftk。它基于控制台并处理受密码保护的 PDF 文件。

    【讨论】:

      【解决方案2】:

      pdftotext 应该能够做到这一点。它自带poppler库,也可以用xpdf找到(poppler来自xpdf)。

      【讨论】:

        【解决方案3】:

        试试pdftk:

        pdftk secure.pdf input_pw foopass output unsecured.pdf

        【讨论】:

          【解决方案4】:

          您可以尝试使用PDF Password Cracking 实用程序的特殊功能

          它被称为“解密”选项 - 您可以填写密码来制作不受保护的 PDF 文件副本

          【讨论】:

            【解决方案5】:

            我同意 Desstan,AutoIt 或 AutoHotkey 可用于使用 GUI 自动化任何无法通过其他方式自动化的任务。虽然它可能会很慢并且可能会在意外情况下停止(另外还有一个学习曲线,但至少 AutoHotkey 论坛非常有帮助,虽然需要 Acrobat Professional 为其编写脚本......)。

            确实,Xpdf 似乎是一个有趣的工具,包括文本提取器和支持 decryption

            【讨论】:

              【解决方案6】:

              CAM::PDF 是一个开源 Perl 库,可以加密和解密 PDF。目前它只能在所有者和用户密码相同的情况下进行 40 位加密,但就在今天(巧合)一个用户提交了一个允许 128 位加密和解密的补丁。我希望在下周发布一个具有该增强功能的新版本。

              不过,CAM::PDF 不太擅长提取文本。

              【讨论】:

                【解决方案7】:

                如果您找不到任何体面的纯程序化方式来做这件事,另一种选择是AutoIt

                它是“一种免费软件,类似 BASIC 的脚本语言,专为自动化 Windows GUI 而设计”,可以在您去喝咖啡时为您完成所有操作。

                【讨论】:

                  猜你喜欢
                  • 2013-07-10
                  • 1970-01-01
                  • 1970-01-01
                  • 1970-01-01
                  • 2014-09-05
                  • 1970-01-01
                  • 2011-03-03
                  • 1970-01-01
                  • 1970-01-01
                  相关资源
                  最近更新 更多