OCR 不再是问题了吗？答案

【问题标题】：Is OCR no longer an issue?OCR 不再是问题了吗？
【发布时间】：2009-10-19 09:38:05
【问题描述】：

根据Wikipedia 的说法，“拉丁文字的准确识别，打字文本现在在诸如打印文档扫描等具有清晰成像的应用中被认为已基本解决。”但是，它没有给出引用。

我的问题是：这是真的吗？当前的最先进技术是否如此出色以至于 - 对于英文文本的良好扫描 - 没有任何重大改进需要改进？

或者，这个问题的一个不太主观的形式是：现代 OCR 系统在识别英文文本以进行高质量扫描方面的准确度如何？

【问题讨论】：

【解决方案1】：

我认为这确实是一个已解决的问题。只需查看C#、C++、Java 等的大量 OCR 技术文章。

当然，文章确实强调脚本需要打字并且清晰。这使得识别成为一项相对微不足道的任务，而如果您需要对扫描的页面（噪声）或手写（扩散）进行 OCR，则可能会变得更加棘手，因为需要正确调整的内容更多。

【讨论】：

【解决方案2】：

狭义地考虑将足够高质量的 2d 位图分解为矩形，每个矩形都包含一组行为良好的预先指定字体（参见 Omnifont）中的一个识别的拉丁字符，这是一个已解决的问题。

开始使用这些参数，例如古怪的未知字体、嘈杂的扫描、亚洲字符，它开始变得有些不稳定或需要额外的输入。许多著名的 Ominfont 系统不能很好地处理连字。

OCR 的主要问题是理解输出。如果这是一个已解决的问题，Google 图书将提供完美的结果。

【讨论】：