tika-python 的语言检测不起作用答案

【问题标题】：Language dectection from tika-python does not worktika-python 的语言检测不起作用
【发布时间】：2020-08-04 23:44:41
【问题描述】：

我在使用 Tika 进行语言检测（在 python 中）时遇到问题。我首先指出，当我使用parser.from_file(file)解析 PDF 文件时，大多数情况下“元数据部分”中不包含语言。

因此，我尝试明确检测语言，并且在大多数情况下得到结果是“th”，而我的文档在法语。然后，我将PDF文件内容复制到一个简单的文本文件中，结果出奇地正确。这是我使用的代码：

from tika import language 
print(language.from_file(file))

请注意，我刚刚使用命令pip install tika 安装了 tika，没有任何其他配置。我使用的过程有什么问题吗？

【问题讨论】：

【解决方案1】：

“HTTP PUT 或 POST 将 UTF-8 文本文件发送到 LanguageIdentifier 以识别其语言。

注意：此端点不解析文件。它在 UTF-8 字符串上运行检测。”

您应该首先解析 pdf 并提取文本，然后运行语言标识符：

pdf = parser.from_file(file_path, localhost_tika)
text = pdf["content"]
detected_lang = language.from_buffer(text)

【讨论】：