【问题标题】:How do I get text from a png in Nodejs?如何从 Nodejs 中的 png 获取文本?
【发布时间】:2016-06-22 21:31:27
【问题描述】:

我尝试在此图像上使用 tesseract-ocr:http://ablazinradio.com/site/wp-content/uploads/2015/06/lebron-james-cavs.jpg 但它不返回带有“Cavs”或“23”的文本,它什么也不返回。是否有任何其他 npm 模块可以从该图像中提取文本,或者我可以以某种方式手动完成?谢谢。

【问题讨论】:

  • 你确定你已经成功安装了tesseract项目,因为它是使用node.js时运行OCR的硬依赖

标签: node.js image text tesseract text-extraction


【解决方案1】:

我刚刚通过 tesseract 运行了这个,我得到了绝对的胡言乱语。

Tesseract 确实不具备处理这种图像的能力,尤其是在没有对图像进行任何预处理的情况下。

我认为您不会找到任何可以处理该图像的开源代码。

也许可以试试 Google Vision API https://cloud.google.com/vision/docs/

否则,如果您愿意在 tesseract 上投入更多时间,我建议您查看 tesseract wiki 以尝试改善您的结果https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

【讨论】:

    【解决方案2】:

    所以,textract 是对 nodejs 项目和 tika 对 python 有帮助的包。 但是 textract 的问题是它需要您为操作系统安装工具,例如 pdftotext(用于 pdf)、antiword(用于 word 文档)、unrtf(用于 rtf)、tesseract(用于图像)、drawingtotext(用于 DXF 文件)。这适用于您了解操作系统的传统服务器。但是在您不了解操作系统的云函数或 lambda 函数中,如果可能的话,仍然具有成本性能。

    https://www.npmjs.com/package/textract

    【讨论】:

      猜你喜欢
      • 2012-05-14
      • 2020-03-27
      • 1970-01-01
      • 1970-01-01
      • 2020-05-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多