【问题标题】:Azure Databricks error- The output of the notebook is too large. Cause: rpc responseAzure Databricks 错误 - 笔记本的输出太大。原因:rpc响应
【发布时间】:2021-12-03 09:53:59
【问题描述】:

错误消息 - job failed with error message The output of the notebook is too large. Cause: rpc response (of 20972488 bytes) exceeds limit of 20971520 bytes

详情: 我们正在使用 databricks 笔记本来运行这项工作。作业正在作业集群上运行。这是一个流式作业。 作业开始失败并出现上述错误。

我们在job中没有display()、show()、print()、explain方法。

我们也没有在作业中使用 awaitAnyTermination 方法。

我们还尝试将“spark.databricks.driver.disableScalaOutput true”添加到作业中,但它仍然不起作用。作业失败并出现同样的错误。

我们已按照本文档中提到的所有步骤 - https://docs.microsoft.com/en-us/azure/databricks/kb/jobs/job-cluster-limit-nb-output

我们是否有任何选项来解决此问题或找出确切的命令输出导致它超过 20MB 限制。

【问题讨论】:

  • 你启用了awaitAnyTermination 吗?
  • 你为什么不把它作为一个 jar 作业来运行呢? https://docs.databricks.com/jobs.html#jar-jobs-1
  • @gatear - 我们没有启用 awaitAnyTermination。我们有很多笔记本作业成功运行,所以如果可能我们不想转移到 jar 作业

标签: scala databricks azure-databricks


【解决方案1】:

请参阅有关 structured streaming in prod 的文档。
我建议迁移到基于 jar 作业的工作流,因为:

Notebook workflows are not supported with long-running jobs. Therefore we don’t recommend using notebook workflows in your streaming jobs.

【讨论】:

    猜你喜欢
    • 2022-08-13
    • 2022-07-27
    • 2022-01-20
    • 1970-01-01
    • 2021-09-28
    • 1970-01-01
    • 2020-05-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多