【发布时间】:2022-03-04 09:00:31
【问题描述】:
我在 PySpark 中找不到 OCRing 图像的开源解决方案。我知道存在 pytesseract 之类的解决方案,但不确定它们是否能很好地与 PySpark 配合使用,因为 tesseract-ocr 需要安装在 linux 机器上。是否有任何开源 OCR 解决方案可以很好地与 PySpark 配合使用?
【问题讨论】:
-
PySpark 不会取代 Linux,并且仍然能够运行每个执行器的“本地安装”模块
标签: apache-spark pyspark ocr python-tesseract