语言检测答案

【问题标题】：language detection语言检测
【发布时间】：2011-12-30 17:39:56
【问题描述】：

我将tesseract 用于 OCR，主要用于发票。但是，tesseract 需要在开始处理文件之前指定语言。

我以为我将基于预定义的默认语言执行 ocr。然后我想使用生成的文本来检查使用的是哪种语言。如果它不是默认语言，我会再次对其进行处理，以便从 tesseract 中获得更好的结果。

但是如何实现语言检测算法呢？有我可以使用的 C++ 库吗？

【问题讨论】：

【解决方案1】：

本文“Natural Language Identification for OCR Applications”描述了与您的要求类似的识别任务所涉及的技术。

【讨论】：

【解决方案2】：

我不确定这是否会有所帮助，因为该库是 Java 语言。但我发现它真的很酷，因为它能够从给定的文本中检测出大约 50 种语言并且具有相当不错的精度水平。您可能想看看它，因为它是开源的，如果您的应用程序只需要用 C++ 编写，您可以用 C++ 重写代码并将其返回给开源社区。p>

这是相同的链接：

注意：它使用 Apache Nutch 和 Tika 库进行分析。

【讨论】：

【解决方案3】：

TL;DR：试试 CLD-2。

【讨论】：