【问题标题】:Determine Text Orientation in a PDF确定 PDF 中的文本方向
【发布时间】:2021-01-06 20:56:58
【问题描述】:

有没有一种方法可以使用 JS 或任何库检测页面中的文本是横向还是纵向?我不能依赖宽度 > 高度,因为也有旋转的页面。

我不能依赖比较宽度和高度,或者检查页面是否旋转,因为这两个页面都旋转了 90 度,但我不知道如何检测文本的方向。

我还使用 Node.js 和 pdfjs 对 PDF 进行了一些预处理。因此,如果有任何 API/库可以帮助我获取所需信息,我将不胜感激。

【问题讨论】:

    标签: javascript node.js pdf.js


    【解决方案1】:

    您可以使用主要用于 OCR 转换的 tesseract 来做到这一点。我将它与 PHP 一起使用,但您也可以将它与 JS 一起使用: https://ourcodeworld.com/articles/read/580/how-to-convert-images-to-text-with-pure-javascript-using-tesseract-js

    Tesseract 可以检测方向。下面是一些关于它使用 Python 的信息: Is it possible to check orientation of an image before passing it through pytesseract ocr module

    您需要做的就是使用上面第一个链接的工具使其适应 Javascript。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-01-22
      • 1970-01-01
      • 1970-01-01
      • 2011-05-07
      • 1970-01-01
      • 2014-03-22
      • 2016-06-13
      相关资源
      最近更新 更多