【发布时间】:2017-05-07 14:10:28
【问题描述】:
在使用 pdfminer (pdf2txt.py) 处理 file 时,我收到了空输出:
dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf
dan@work:~/project$
谁能说出这个文件有什么问题以及我可以做些什么来从中获取数据?
这是dumppdf.py docs/homericaeast.pdf 输出:
<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on ¤µF¤5Á>ó_ýv¬`</string>
<string size="16">on ¤µF¤5Á>ó_ýv¬`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>
<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on ¤µF¤5Á>ó_ýv¬`</string>
<string size="16">on ¤µF¤5Á>ó_ýv¬`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>
【问题讨论】:
-
This question/answer 可能会有所帮助
-
@Daniel 以防万一,如果您想要替代
pdftotext实用程序,通过保持布局也可以提供良好的结果dpaste.com/3EV77FE -
@J.Hollom
pdf2txt.py -d homericaeast.pdf也给了我空的结果 -
@AamirAdnan 我更喜欢使用 pdfminer,因为我已经有一个使用 pdfminer 的大项目,我必须将新代码集成到其中。但是我会看看pdftotext,谢谢
-
@DanielM 道歉,
-d标志不相关,因此已删除该评论。通过在 Mac 上使用 Preview 将原始文件导出为 pdf 然后运行 pdf2txt.py
标签: python pdf pdfminer pdf-parsing