【发布时间】:2010-09-30 13:48:57
【问题描述】:
如何从包含它的 pdf 文件中提取该流的一部分(名为 BLABLABLA 的流)??
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>
或者,在其他世界中,我如何从 pdf 流中提取子键?
我想使用一些 python 的库(如 pyPdf 或 ReportLab),但即使是一些 C/C++ 库也应该适合我。
谁能帮帮我?
【问题讨论】:
-
我自己没用过,不过the gfx module in swftool或许能帮到你。
-
Google 代码有一个名为pdf miner 的python 文本提取工具。我不知道它是否能满足您的需求,但它可能值得一看。
标签: python pdf stream reportlab pypdf