【问题标题】:Setting spark.driver.maxResultSize in EMR notebook jupyter在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize
【发布时间】:2020-08-26 21:39:43
【问题描述】:

我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时,我看到了这个错误:

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

看来我需要更新 spark 配置中的 maxResultsSize。如何从 jupyter notebook 设置 spark maxResultsSize。

已查看此帖子:Spark 1.4 increase maxResultSize memory

另外,在emr notebook中,spark context已经给出了,有什么办法可以编辑spark context,增加maxResultsSize

任何线索都会非常有帮助。

谢谢

【问题讨论】:

  • 这是您问题的答案:stackoverflow.com/questions/31058504/…
  • 我已经尝试过了,但是一旦我停止 spark context ,我就会看到这个错误:遇到错误:来自 https://** 的无效状态代码 '400' 带有错误有效负载:{" msg":"要求失败:会话未激活。"}
  • 也遇到这个问题,谁能帮忙?

标签: apache-spark jupyter-notebook amazon-emr spark-notebook


【解决方案1】:

您可以在 spark 会话开始时设置 livy 配置 见https://github.com/cloudera/livy#request-body

将其放在代码的开头

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

通过在下一个单元格中打印会话来检查设置:

print(spark.conf.get('spark.driver.maxResultSize'))

这应该可以解决问题

【讨论】:

  • 是的,使用这个命令,我们可以更新maxResultSize。此外,如果我们想更新任何其他参数,那么我们可以使用相同的方法更新它。要检查更新的配置,请使用以下命令:%%info
猜你喜欢
  • 1970-01-01
  • 2018-09-04
  • 1970-01-01
  • 2019-10-09
  • 2018-06-25
  • 2021-08-05
  • 2020-12-26
  • 1970-01-01
  • 2019-12-08
相关资源
最近更新 更多