【发布时间】:2017-05-01 06:50:28
【问题描述】:
我正在尝试有一个转换器,可以将任何格式的任何文件转换为文本,这样处理对我来说变得更容易。我使用了 Python textract 库。
这是文档:https://textract.readthedocs.io/en/stable/
我已使用pip 安装它并尝试使用它。但是出现错误,无法理解如何解决它。
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
我什至尝试过使用命令而不指定方法。
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
请告诉我如何根据您的建议解决此问题。如果可能的话,请给我建议解决方案,如果有其他可以方便的方法而不是textract,那么您仍然可以建议我。我想听听。
【问题讨论】:
-
所以你想从一个文件中提取所有字符串,就像 unix 中的strings 命令?
标签: python python-2.7 python-3.x text-extraction