【发布时间】:2013-09-16 07:36:49
【问题描述】:
我有一个 pdf 文件。它包含四列,所有页面都没有网格线。它们是学生的标志。
我想对此分布进行一些分析。(直方图、折线图等)。
我想将此 pdf 文件解析为电子表格或 HTML 文件(然后我可以很容易地对其进行解析)。
pdf的链接是:
这是一份公开文件,可在此域上向任何人公开使用。
注意:我知道这可以通过将文件从 adobe reader 导出为文本,然后将其导入 Libre Calc 或 Excel 来完成。但我想使用 python 脚本来做到这一点。
请帮我解决这个问题。 眼镜: Windows 7的 Python 2.7
【问题讨论】:
-
是否必须解析为PDF?例如,我可以使用我最喜欢的文本编辑器从 PDF 粘贴并进行一些替换,从而将您的数据创建为制表符分隔:pastebin.com/ih6tKMpH
-
是的!我知道我们可以通过从 adobe 将其导出为文本然后将其导入 excel 来做到这一点。但我想用脚本来做!
-
您是从 pdf 中复制数据并粘贴的吗?或者您是否将数据从某个 pdf 阅读器导出为文本? @肖恩·约翰逊
-
我实际上只是将它从 PDF 复制并粘贴到我的文本编辑器中,并运行了一些替换以使字段以制表符分隔以便于解析。