【发布时间】:2017-11-26 02:07:47
【问题描述】:
我有一个 pdf。在我的win 10、python 3.6环境下安装pdfminer.six后,我跑了:
$ pdf2txt.py -o test1 download.pdf
给我截图输出。当我跑步时:
$ dumppdf.py -o test2 download.pdf
我明白了:
<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+ NžÕéŰÏ<…MŒ</string>
<string size="16">"³ÿÝê±'¦…ÖíÄÍ</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>
<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+ NžÕéŰÏ<…MŒ</string>
<string size="16">"³ÿÝê±'¦…ÖíÄÍ</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>
接下来我该怎么做?我怎样才能让它工作?
【问题讨论】:
-
更新您的 PDF 链接,使其无需登录任何应用程序即可访问。
-
这行得通吗?
-
"此文档已从 Scribd 中删除。" --- 通常,谷歌驱动器或 Dropbox 上的公开共享工作正常。
-
这个怎么样?
-
可以下载该共享。接下来请说明您期望达到的目标?该 Foreclosure Worksheet PDF 不包含文本绘制指令,仅包含图形绘制指令(其结果看起来像文本),因此 PDF 文本提取将不会返回任何内容。您最好使用 OCR 而不是文本提取。
标签: python pdf pdfminer pdf-parsing