【问题标题】:How does PaddleOCR performance compare to Tesseract?PaddleOCR 性能与 Tesseract 相比如何?
【发布时间】:2021-09-01 10:38:58
【问题描述】:

我最近遇到了 PaddleOCR,我想知道这个 OCR 系统与 Tesseract 相比如何。是否有可用的数据或基准?

【问题讨论】:

    标签: paddle-paddle


    【解决方案1】:

    我发现了PaddleOCR 2 and Tesseract 4 之间的比较,但仅限于英文文本。简要总结:

    1. PaddleOCR 在 CPU 上比 Tesseract 稍慢,但在 GPU 支持下,它在标准 GPU 上比 Tesseract 高出 46%。
    2. 如果不进行后期处理,PaddleOCR 主要会出现单词和标点符号之间缺少空格的错误。但是,这些错误可以很容易地纠正。后处理后的准确度与 Tesseract 相当(低 1%)。
    3. 英语预训练模型的文件大小仅为 Tesseracts 英语训练数据文件大小的 10%(2MB 与 23MB)。

    对于目前似乎是 PaddleOCR 主要优先考虑的中文文本,情况可能会有所不同。

    【讨论】:

      【解决方案2】:

      我用它们测试了英语和日语,但有趣的是,PaddleOCR 似乎比 Tesseract 更能识别它们。 PaddleOCR 的文本检测似乎也更好。 然而,根据他们的帖子,PaddleOCR 不能很好地处理空格,并且有来自非中国(或日本)用户的投诉。 PaddleOCR 非常渴望整合作为研究论文发表的最新识别/检测算法,为此我决定使用 PaddleOCR。

      【讨论】:

      • 我还发现 PaddleOCR 比没有自我训练的 Tesseract 更好
      猜你喜欢
      • 2011-03-22
      • 1970-01-01
      • 2013-07-23
      • 1970-01-01
      • 2021-12-19
      • 2012-05-06
      • 1970-01-01
      • 2022-08-18
      • 2011-01-29
      相关资源
      最近更新 更多