【问题标题】:language detection语言检测
【发布时间】:2011-12-30 17:39:56
【问题描述】:

我将tesseract 用于 OCR,主要用于发票。但是,tesseract 需要在开始处理文件之前指定语言。

我以为我将基于预定义的默认语言执行 ocr。然后我想使用生成的文本来检查使用的是哪种语言。如果它不是默认语言,我会再次对其进行处理,以便从 tesseract 中获得更好的结果。

但是如何实现语言检测算法呢?有我可以使用的 C++ 库吗?

【问题讨论】:

    标签: c++ nlp ocr language-detection


    【解决方案1】:

    本文“Natural Language Identification for OCR Applications”描述了与您的要求类似的识别任务所涉及的技术。

    【讨论】:

      【解决方案2】:

      我不确定这是否会有所帮助,因为该库是 Java 语言。但我发现它真的很酷,因为它能够从给定的文本中检测出大约 50 种语言并且具有相当不错的精度水平。您可能想看看它,因为它是开源的,如果您的应用程序只需要用 C++ 编写,您可以用 C++ 重写代码并将其返回给开源社区。​​p>

      这是相同的链接:

      http://code.google.com/p/language-detection/

      注意:它使用 Apache Nutch 和 Tika 库进行分析。

      【讨论】:

        【解决方案3】:

        您可能想阅读我的论文The WiLI benchmark dataset for written language identification 并尝试lidtk

        TL;DR:试试 CLD-2。

        【讨论】:

          猜你喜欢
          • 2013-06-29
          • 1970-01-01
          • 2021-08-27
          • 2020-07-25
          • 2011-03-12
          • 2014-05-20
          • 1970-01-01
          • 2019-07-08
          • 2012-08-27
          相关资源
          最近更新 更多