Google 图书如何查找文本区域？答案

【问题标题】：How does Google Books find text regions?Google 图书如何查找文本区域？
【发布时间】：2009-01-15 05:11:52
【问题描述】：

计算机视觉中一个具有挑战性的主题是处理文档扫描。通常这涉及到许多步骤，例如去噪、颜色分析、二值化、文本块识别、OCR，然后可能还有一些上下文分析和校正。

我很好奇是否有人理解、知道或可以向我指出有关 Google 如何在 OCR 阶段之前识别文本块的文献。有什么见解吗？

【问题讨论】：

标签： ocr google-books

【解决方案1】：

我相信 Google 将 Tesseract OCR 引擎与另一个名为 Ocropus 的工具结合使用，这两个工具都是开源的。我对它们的工作原理一无所知，但您可能有兴趣查看上面链接中提供的代码。

【讨论】：

【解决方案2】：

这是我图书馆的数字化专家提供的二手信息，但 Google 的方法似乎是通过自动化流程处理所有内容，例如任何看起来像文本的内容，而不是过多地裁剪单个图像或做很多语义分析来寻找图像标题等。他们可能正在做一些不明显的微妙事情，但从表面上看，他们肯定是在追求数量而不是质量，这对他们来说是明智的，为了他们的目的，IMO。

【讨论】：