【问题标题】:Language dectection from tika-python does not worktika-python 的语言检测不起作用
【发布时间】:2020-08-04 23:44:41
【问题描述】:

我在使用 Tika 进行语言检测(在 python 中)时遇到问题。我首先指出,当我使用parser.from_file(file)解析 PDF 文件时,大多数情况下“元数据部分”中不包含 语言

因此,我尝试明确检测语言,并且在大多数情况下得到结果是“th”,而我的文档在法语。然后,我将PDF文件内容复制到一个简单的文本文件中,结果出奇地正确。 这是我使用的代码:

from tika import language 
print(language.from_file(file))

请注意,我刚刚使用命令pip install tika 安装了 tika,没有任何其他配置。我使用的过程有什么问题吗?

【问题讨论】:

    标签: python-3.x apache-tika


    【解决方案1】:

    来自文档: https://cwiki.apache.org/confluence/display/TIKA/TikaServer

    “HTTP PUT 或 POST 将 UTF-8 文本文件发送到 LanguageIdentifier 以识别其语言。

    注意:此端点不解析文件。它在 UTF-8 字符串上运行检测。”

    您应该首先解析 pdf 并提取文本,然后运行语言标识符:

    pdf = parser.from_file(file_path, localhost_tika)
    text = pdf["content"]
    detected_lang = language.from_buffer(text)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-25
      • 2016-04-08
      • 2015-01-29
      • 1970-01-01
      相关资源
      最近更新 更多