【发布时间】:2015-11-20 13:46:48
【问题描述】:
有没有办法从带有俄语文本(cp1251)的pdf文件中提取文本?
为了解析 pdf 文件,我使用的是 pdfminer 包。 我试图在 pdfminer.converter.TextConverter 类的参数中指定编码,但没有帮助。
【问题讨论】:
-
不清楚你有文本后要做什么,你想用python解析它吗?
-
我想从pdf中提取所有文本(可以提取的),然后使用nltk包进行分析。