【问题标题】:How does Google Books find text regions?Google 图书如何查找文本区域?
【发布时间】:2009-01-15 05:11:52
【问题描述】:

计算机视觉中一个具有挑战性的主题是处理文档扫描。通常这涉及到许多步骤,例如去噪、颜色分析、二值化、文本块识别、OCR,然后可能还有一些上下文分析和校正。

我很好奇是否有人理解、知道或可以向我指出有关 Google 如何在 OCR 阶段之前识别文本块的文献。有什么见解吗?

【问题讨论】:

    标签: ocr google-books


    【解决方案1】:

    我相信 Google 将 Tesseract OCR 引擎与另一个名为 Ocropus 的工具结合使用,这两个工具都是开源的。我对它们的工作原理一无所知,但您可能有兴趣查看上面链接中提供的代码。

    【讨论】:

      【解决方案2】:

      这是我图书馆的数字化专家提供的二手信息,但 Google 的方法似乎是通过自动化流程处理所有内容,例如任何看起来像文本的内容,而不是过多地裁剪单个图像或做很多语义分析来寻找图像标题等。他们可能正在做一些不明显的微妙事情,但从表面上看,他们肯定是在追求数量而不是质量,这对他们来说是明智的,为了他们的目的,IMO。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-12-08
        • 1970-01-01
        • 2022-10-22
        • 2012-02-22
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多