【发布时间】:2020-08-26 21:39:43
【问题描述】:
我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时,我看到了这个错误:
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
看来我需要更新 spark 配置中的 maxResultsSize。如何从 jupyter notebook 设置 spark maxResultsSize。
已查看此帖子:Spark 1.4 increase maxResultSize memory
另外,在emr notebook中,spark context已经给出了,有什么办法可以编辑spark context,增加maxResultsSize
任何线索都会非常有帮助。
谢谢
【问题讨论】:
-
我已经尝试过了,但是一旦我停止 spark context ,我就会看到这个错误:遇到错误:来自 https://** 的无效状态代码 '400' 带有错误有效负载:{" msg":"要求失败:会话未激活。"}
-
也遇到这个问题,谁能帮忙?
标签: apache-spark jupyter-notebook amazon-emr spark-notebook