【发布时间】:2020-08-04 23:44:41
【问题描述】:
我在使用 Tika 进行语言检测(在 python 中)时遇到问题。我首先指出,当我使用parser.from_file(file)解析 PDF 文件时,大多数情况下“元数据部分”中不包含 语言。
因此,我尝试明确检测语言,并且在大多数情况下得到结果是“th”,而我的文档在法语。然后,我将PDF文件内容复制到一个简单的文本文件中,结果出奇地正确。 这是我使用的代码:
from tika import language
print(language.from_file(file))
请注意,我刚刚使用命令pip install tika 安装了 tika,没有任何其他配置。我使用的过程有什么问题吗?
【问题讨论】: