【发布时间】:2011-04-24 07:52:56
【问题描述】:
我正在尝试使用 Python 的 re 模块从 PDF 文件中解析一些对象元素。我的目标是使用正则表达式解析每个 PDF 对象。
PDF 对象示例如下:
1 0 obj
<<
/Type /Catalog
/Pages 2 0 R
>>
endobj
2 0 obj
<<
/Type /Pages
/Kids [ 3 0 R ]
/Count 1
>>
endobj
...
当我使用"\d+\s\d+\sobj[\s,\S]*endobj" 时它不起作用(它一直在解析 util 最后一个 endobj 被发现)。如何修改正则表达式以分别解析每个对象(换句话说,从 1 0 obj 到 endobj 的部分)?
【问题讨论】: