【发布时间】:2022-10-07 03:49:09
【问题描述】:
我有一个火花作业,其中某些任务的记录输出为零,并且某些任务具有内存和磁盘溢出的随机读取大小。有人可以帮我做些什么来优化执行。 执行信息:repartition_cnt=3500 [数据集在 S3 中,通过具有 298 个 DPU 的 Glue G2X 执行)
代码:
fct_ate_df.repartition(expr(s\"pmod(hash(mae_id, rowsin, dep), $repartition_cnt)\"))
.write
.mode(\"overwrite\")
.format(\"parquet\")
.bucketBy(repartition_cnt, \"rowsin\", \"rowsin\",\"dep\")
.sortBy(\"rowsin\",\"dep\")
.option(\"path\", s\"s3://b222-id/data22te=$dat22et_date\")
.saveAsTable(s\"btemp.intte_${table_name}_${regd}\")
泄漏记录
标签: apache-spark aws-glue amazon-emr