【发布时间】:2018-12-20 04:41:52
【问题描述】:
所以我正在尝试关注这个笔记本并让它在 databricks 笔记本上工作:https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb;但是,在安装完所有软件包后,我仍然卡住了
{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
println("---------------")
println(chunk)}
}
错误信息是:
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 3.0 中的任务 0 失败 4 次,最近一次失败:阶段 3.0 中丢失任务 0.3(TID 51、10.195.249.145、执行程序 4):java .lang.NoClassDefFoundError: 无法初始化类 net.sourceforge.tess4j.TessAPI
有人知道为什么吗?非常感谢!
【问题讨论】:
-
你是如何安装这些包的?
-
我刚刚将 jar 作为库附加到集群。我尝试导入 OcrHelper 所需的所有包和功能,它们都有效。
标签: apache-spark databricks johnsnowlabs-spark-nlp