在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize答案

【问题标题】：Setting spark.driver.maxResultSize in EMR notebook jupyter在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize
【发布时间】：2020-08-26 21:39:43
【问题描述】：

我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时，我看到了这个错误：

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

看来我需要更新 spark 配置中的 maxResultsSize。如何从 jupyter notebook 设置 spark maxResultsSize。

已查看此帖子：Spark 1.4 increase maxResultSize memory

另外，在emr notebook中，spark context已经给出了，有什么办法可以编辑spark context，增加maxResultsSize

任何线索都会非常有帮助。

谢谢

【问题讨论】：

这是您问题的答案：stackoverflow.com/questions/31058504/…
我已经尝试过了，但是一旦我停止 spark context ，我就会看到这个错误：遇到错误：来自 https://** 的无效状态代码 '400' 带有错误有效负载：{" msg":"要求失败：会话未激活。"}
也遇到这个问题，谁能帮忙？

标签： apache-spark jupyter-notebook amazon-emr spark-notebook

【解决方案1】：

您可以在 spark 会话开始时设置 livy 配置见https://github.com/cloudera/livy#request-body

将其放在代码的开头

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

通过在下一个单元格中打印会话来检查设置：

print(spark.conf.get('spark.driver.maxResultSize'))

这应该可以解决问题

【讨论】：

是的，使用这个命令，我们可以更新maxResultSize。此外，如果我们想更新任何其他参数，那么我们可以使用相同的方法更新它。要检查更新的配置，请使用以下命令：%%info