【发布时间】:2020-07-11 18:59:40
【问题描述】:
我正在尝试在 spark 数据框中加载一个 100 GB 的 json 文件并在其上创建一个临时视图。然后我用 query 查询这个视图中的数据
select * from <table_view> limit 1;
但是查询没有完成,而是给出了错误Caused by : java.lang.OutOfMemoryError: GC Overhead limit exceeded. 我正在databricks 集群中运行我的代码。这是我的集群详细信息:
Cluster Mode : standard
Databricks runtime Version : 6.1(Apache Spark 2.4.4)
Worker Type : 56 GB Memory, 16 cores 3 DBU (min worker= 2, max worker = 8)
Driver Type : 56 GB Memory, 16 cores 3 DBU
我尝试设置以下配置参数,但没有成功。
spark.conf.set("spark.executor.memory", '50g')
spark.conf.set('spark.executor.cores', '5')
spark.conf.set('spark.cores.max', '16')
spark.conf.set("spark.driver.memory",'30g')
spark.conf.set("spark.yarn.executor.memoryOverhead",4096)
我对 apache spark 很陌生。如果需要其他详细信息,请告诉我。
【问题讨论】:
标签: java apache-spark pyspark garbage-collection azure-databricks