无法在数据块上运行 johnsnow OCR 笔记本答案

【问题标题】：Can't get the johnsnow OCR notebook run on databricks无法在数据块上运行 johnsnow OCR 笔记本
【发布时间】：2018-12-20 04:41:52
【问题描述】：

所以我正在尝试关注这个笔记本并让它在 databricks 笔记本上工作：https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb；但是，在安装完所有软件包后，我仍然卡住了

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误信息是：

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 3.0 中的任务 0 失败 4 次，最近一次失败：阶段 3.0 中丢失任务 0.3（TID 51、10.195.249.145、执行程序 4）：java .lang.NoClassDefFoundError: 无法初始化类 net.sourceforge.tess4j.TessAPI

有人知道为什么吗？非常感谢！

【问题讨论】：

你是如何安装这些包的？
我刚刚将 jar 作为库附加到集群。我尝试导入 OcrHelper 所需的所有包和功能，它们都有效。

标签： apache-spark databricks johnsnowlabs-spark-nlp

【解决方案1】：

如文档所述，要使用 Spark NLP OCR，您需要安装 Tesseract 4.x+。在集群中，您必须在所有节点上都有这个。但是，如果您只是处理 PDF 而不是扫描图像，您可能可以跳过 Tesseract 4.x+ 安装：

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()

val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

更新：有一个新的 Spark OCR 文档和 Databricks 的特殊说明：

https://nlp.johnsnowlabs.com/docs/en/ocr

【讨论】：