【发布时间】:2018-11-07 00:08:24
【问题描述】:
最近我收到一个错误,超出了“spark.driver.MaxResultSize”。我在纱线客户端模式下使用 pyspark。代码是生成随机的假数据进行测试。
new_df = None
for i in range(int(2000)):
df = spark.range(0,10000)
temp = df.select(f.col("id").alias('user_id'), f.round(1000 * f.abs(f.randn(seed=27))).alias("duration"))
if new_df is None:
new_df = temp
else:
new_df = new_df.union(temp)
我尝试将最大结果大小增加到 15G 以使其正常工作。我不知道为什么它需要这么多内存。有没有关于如何计算结果集大小的指南?
【问题讨论】:
-
您认为答案有什么价值吗?
标签: apache-spark pyspark