【问题标题】:extracting stream from pdf in python在python中从pdf中提取流
【发布时间】:2010-09-30 13:48:57
【问题描述】:

如何从包含它的 pdf 文件中提取该流的一部分(名为 BLABLABLA 的流)??

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

或者,在其他世界中,我如何从 pdf 流中提取子键?

我想使用一些 python 的库(如 pyPdf 或 ReportLab),但即使是一些 C/C++ 库也应该适合我。

谁能帮帮我?

【问题讨论】:

  • 我自己没用过,不过the gfx module in swftool或许能帮到你。
  • Google 代码有一个名为pdf miner 的python 文本提取工具。我不知道它是否能满足您的需求,但它可能值得一看。

标签: python pdf stream reportlab pypdf


【解决方案1】:

IIUC,PDF 中的流只是二进制数据序列。我认为您想要提取对象的一部分。您是否想要一个标准对象,例如图像或文本?如果有真实的例子,给你示例代码会容易得多。

这可能有助于您入门:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

【讨论】:

  • 是否可以按数字提取整个对象?我正在尝试使用恶意代码提取对象以进行自动分析。
猜你喜欢
  • 2019-06-26
  • 2020-04-04
  • 1970-01-01
  • 2012-07-28
  • 2015-02-28
  • 2011-09-08
  • 1970-01-01
  • 1970-01-01
  • 2020-02-09
相关资源
最近更新 更多