【发布时间】:2016-04-15 20:27:34
【问题描述】:
我有 1 个 master 和 3 个 slave(每个 4 个核心)
默认情况下,我的 spark 集群中的最小分区大小为 32MB,我的文件大小为 41 Gb。 所以我试图通过将 minsize 更改为 64Mb 来减少分区数
sc.hadoopConfiguration.setLong("mapreduce.input.fileinputformat.split.minsize", 64*1024*1024)
val data =sc.textFile("/home/ubuntu/BigDataSamples/Posts.xml",800)
data.partitions.size = 657
那么增加分区大小和减少分区数量有什么好处呢? 因为当我的分区在 1314 左右时,大约需要 2-3 分钟 appx,即使在减少分区数之后,它仍然需要相同的时间。
【问题讨论】:
标签: scala apache-spark hadoop-partitioning