【问题标题】:Can't get the johnsnow OCR notebook run on databricks无法在数据块上运行 johnsnow OCR 笔记本
【发布时间】:2018-12-20 04:41:52
【问题描述】:

所以我正在尝试关注这个笔记本并让它在 databricks 笔记本上工作:https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb;但是,在安装完所有软件包后,我仍然卡住了

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误信息是:

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 3.0 中的任务 0 失败 4 次,最近一次失败:阶段 3.0 中丢失任务 0.3(TID 51、10.195.249.145、执行程序 4):java .lang.NoClassDefFoundError: 无法初始化类 net.sourceforge.tess4j.TessAPI

有人知道为什么吗?非常感谢!

【问题讨论】:

  • 你是如何安装这些包的?
  • 我刚刚将 jar 作为库附加到集群。我尝试导入 OcrHelper 所需的所有包和功能,它们都有效。

标签: apache-spark databricks johnsnowlabs-spark-nlp


【解决方案1】:

如文档所述,要使用 Spark NLP OCR,您需要安装 Tesseract 4.x+。在集群中,您必须在所有节点上都有这个。但是,如果您只是处理 PDF 而不是扫描图像,您可能可以跳过 Tesseract 4.x+ 安装:

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()

val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

更新:有一个新的 Spark OCR 文档和 Databricks 的特殊说明:

https://nlp.johnsnowlabs.com/docs/en/ocr

【讨论】:

    猜你喜欢
    • 2017-05-25
    • 2022-01-22
    • 1970-01-01
    • 2020-11-18
    • 2023-01-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多