【发布时间】:2011-12-30 17:39:56
【问题描述】:
我将tesseract 用于 OCR,主要用于发票。但是,tesseract 需要在开始处理文件之前指定语言。
我以为我将基于预定义的默认语言执行 ocr。然后我想使用生成的文本来检查使用的是哪种语言。如果它不是默认语言,我会再次对其进行处理,以便从 tesseract 中获得更好的结果。
但是如何实现语言检测算法呢?有我可以使用的 C++ 库吗?
【问题讨论】:
标签: c++ nlp ocr language-detection