【发布时间】:2017-06-02 07:19:50
【问题描述】:
我有一些关于 Tesseract OCR 置信度值的问题,可以通过在 C++ API 中调用 AllWordConfidences() 函数获得。
置信度值是多少(由 tesseract API 返回)以及tesseract 如何计算该值?(例如基于哪些因素)?
是否有可能更改 tesseract 的准确度级别?
谁能帮我解决这些问题?谢谢。
【问题讨论】:
我有一些关于 Tesseract OCR 置信度值的问题,可以通过在 C++ API 中调用 AllWordConfidences() 函数获得。
置信度值是多少(由 tesseract API 返回)以及tesseract 如何计算该值?(例如基于哪些因素)?
是否有可能更改 tesseract 的准确度级别?
谁能帮我解决这些问题?谢谢。
【问题讨论】:
我在其他 OCR 软件(特别是 ANPR 软件)中使用了类似的指标。如果我没记错的话,总体上有两个置信度因素;一个是 0->100% 置信因子,另一个是 0->X 值,用作各种级联置信因子的聚合。
这个值是任意的,所以我建议使用 0->100% 的值。另请注意,每个字符都应该有一个置信度因子。
这些指标通过评估轮廓线/边缘的清晰程度、字符中检测到的形状与预期形状的接近程度以及选择一个字符与另一个字符的决策之间的接近程度来计算。 IE OCR 在“p”和“b”之间选择比“Q”和“O”更容易。
“改进”这些指标的唯一方法是训练检测器!因此,准备好拥有大量有效数据。您还需要耐心使用 Tesseract 培训工具 - 我发现它们 75% 都是噩梦。
祝你好运!
【讨论】: