【问题标题】:What is a "packed PDF", and how can it be read?什么是“打包 PDF”,如何阅读?
【发布时间】:2013-02-18 03:34:40
【问题描述】:

我收到了顶级 PDF 包含子 PDF 的“打包 PDF”文件版本。

顶级 PDF 主要用作容器。打包在 Adob​​e 阅读器中并不总是很明显(例如,当使用 pdftk 打包时,链接不显示)。我在谷歌上搜索这个词或在我 2012 年的书(“Whittington”、“PDF Explained”、O'Reilly)中几乎找不到。

这是 PDF 的标准部分吗?如果是这样,我将不胜感激。 PDFBox可以分析吗?

【问题讨论】:

  • 相信你说的是嵌入式文件,我对PDFBox不是很熟悉,但是there is an example here
  • 谢谢@Jesse。你可能是对的(你的参考有错字应该是 pdfbox.apache.org/userguide/file_references.html )。我欢迎其他 cmets - 似乎这个词已经足够广泛以至于引起混淆。
  • 这里 (blog.didierstevens.com/2009/07/01/…) 是一种相当偷偷摸摸的嵌入文档的方式,因此 Adob​​e Readed 无法检测到它。看起来嵌入相当脆弱或可以被颠覆
  • 正如我在下面的回答中提到的,PDF 知道嵌入式文件流以及使 PDF 阅读器知道它们的两种主要方法。要决定 PDFBox 是否可以访问那些连 Adob​​e Reader 都看不到附件的有趣 PDF,有必要检查这些文件是如何被公开的(如果有的话!)。因此,请自行检查或提供样品进行检查。

标签: pdf pdfbox


【解决方案1】:

关于使用 PDF 作为容器文件格式是否是 PDF 的标准部分的问题:

是的,是的。 ISO 32000-1:2008 在第 7.11.4 节 嵌入式文件流 中对其进行了描述。

最突出的是与某些文档页面相关联的文件,请参阅 12.5.6.15,文件附件注释,以及通过 PDF 文档中的 EmbeddedFiles 条目 (PDF 1.4) 与整个文档相关联的文件名称字典(参见 7.7.4,名称字典)。

@JesseGood 在 PDFBox 网站上指向PDF File Specification 的链接解释了如何处理后者。

我对 PDFBox 不是很了解,因此不知道它是否也可以轻松访问其他类型的附件。如果没有,您基本上必须迭代所有页面的注释以找到文件附件注释并根据 PDF 规范处理内容。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-08-24
    • 2017-05-26
    • 2017-12-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-10-12
    相关资源
    最近更新 更多