【发布时间】:2021-09-24 16:29:55
【问题描述】:
有人可以解释一下 AWS Glue 如何对单个大文件进行分区吗?如果它使用 spark.sql.files.maxPartitionBytes 将大文件转换为分区,如何在胶水作业中覆盖它?
我尝试使用 sparkConf
conf = SparkConf() conf.set('spark.files.maxPartitionBytes',41943040) # 40MB sc= SparkContext().getOrCreate(conf=conf)
我正在使用 pyspark。
【问题讨论】:
-
你是问如何使用Spark写一个大文件?
-
当 spark 读取单个大文件时,它会将大文件拆分为数据块,对吗?我想减小块大小。默认情况下,spark 中的块大小为 128 MB。我不确定 Glue 中的默认块大小是多少。另外我想知道如何减小块大小,以便可以将单个大文件拆分为多个数据块。