在python中从pdf中提取流答案

【问题标题】：extracting stream from pdf in python在python中从pdf中提取流
【发布时间】：2010-09-30 13:48:57
【问题描述】：

如何从包含它的 pdf 文件中提取该流的一部分（名为 BLABLABLA 的流）？？

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

或者，在其他世界中，我如何从 pdf 流中提取子键？

我想使用一些 python 的库（如 pyPdf 或 ReportLab），但即使是一些 C/C++ 库也应该适合我。

谁能帮帮我？

【问题讨论】：

我自己没用过，不过the gfx module in swftool或许能帮到你。
Google 代码有一个名为pdf miner 的python 文本提取工具。我不知道它是否能满足您的需求，但它可能值得一看。

标签： python pdf stream reportlab pypdf

【解决方案1】：

IIUC，PDF 中的流只是二进制数据序列。我认为您想要提取对象的一部分。您是否想要一个标准对象，例如图像或文本？如果有真实的例子，给你示例代码会容易得多。

这可能有助于您入门：

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

【讨论】：

是否可以按数字提取整个对象？我正在尝试使用恶意代码提取对象以进行自动分析。