【发布时间】:2021-12-03 09:53:59
【问题描述】:
错误消息 - job failed with error message The output of the notebook is too large. Cause: rpc response (of 20972488 bytes) exceeds limit of 20971520 bytes
详情: 我们正在使用 databricks 笔记本来运行这项工作。作业正在作业集群上运行。这是一个流式作业。 作业开始失败并出现上述错误。
我们在job中没有display()、show()、print()、explain方法。
我们也没有在作业中使用 awaitAnyTermination 方法。
我们还尝试将“spark.databricks.driver.disableScalaOutput true”添加到作业中,但它仍然不起作用。作业失败并出现同样的错误。
我们已按照本文档中提到的所有步骤 - https://docs.microsoft.com/en-us/azure/databricks/kb/jobs/job-cluster-limit-nb-output
我们是否有任何选项来解决此问题或找出确切的命令输出导致它超过 20MB 限制。
【问题讨论】:
-
你启用了
awaitAnyTermination吗? -
你为什么不把它作为一个 jar 作业来运行呢? https://docs.databricks.com/jobs.html#jar-jobs-1
-
@gatear - 我们没有启用 awaitAnyTermination。我们有很多笔记本作业成功运行,所以如果可能我们不想转移到 jar 作业
标签: scala databricks azure-databricks