【发布时间】:2013-04-02 03:37:40
【问题描述】:
我正在处理等于或小于5KB 的文本和pdf 文件。如果文件是文本文件,我会从表单中获取文件并在字符串中获取所需的输入以进行汇总:
file = file.readlines()
file = ''.join(file)
result = summarize(file, num_sentences)
这很容易完成,但对于 pdf 文件,事实证明这并不容易。有没有办法像我在 Python/Django 中处理我的 txt 文件一样将 pdf 文件的句子作为字符串获取?
【问题讨论】:
-
这可能是这个问题的重复:stackoverflow.com/questions/2481945/…
-
是的,可能。但是我已经尝试了该问题中的建议解决方案。它无法以字符串形式返回所有文件的内容。
-
也许你可以在你的问题中这样说,并说出到底出了什么问题(错误信息?错误的内容?),以便我们为您提供帮助!
-
您可以使用这个应用程序:unixuser.org/~euske/python/pdfminer/index.html
标签: python django pdf file-io readlines