【问题标题】:Is there a way to OCR images in PySpark?有没有办法在 PySpark 中进行 OCR 图像处理?
【发布时间】:2022-03-04 09:00:31
【问题描述】:

我在 PySpark 中找不到 OCRing 图像的开源解决方案。我知道存在 pytesseract 之类的解决方案,但不确定它们是否能很好地与 PySpark 配合使用,因为 tesseract-ocr 需要安装在 linux 机器上。是否有任何开源 OCR 解决方案可以很好地与 PySpark 配合使用?

【问题讨论】:

标签: apache-spark pyspark ocr python-tesseract


【解决方案1】:

我找不到纯 python 库。 pytesseract 调用一个名为 tesseract-ocr 的 linux 库,我可以将其安装在 Spark 集群上。你也可以很容易地把它安装在你的 Spark 集群上,它运行良好。

这是关于如何在 Databricks 上安装它的答案。我使用全局初始化脚本来安装它:

How to install Tesseract OCR on Databricks

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-06-24
    • 2019-06-04
    • 1970-01-01
    • 1970-01-01
    • 2021-12-06
    • 1970-01-01
    • 2019-10-16
    • 2015-09-07
    相关资源
    最近更新 更多