【发布时间】:2017-12-11 10:09:53
【问题描述】:
S3 和 GCS 不是与 HDFS 相反的块存储,因此 Spark 在从这些源读取数据时创建分区的方式对我来说不是很清楚。 我现在正在从 GCS 读取数据,但我得到了 2 个用于小文件(10 字节)的分区,以及 100 MB 的中文件。
有人解释吗?
【问题讨论】:
标签: apache-spark amazon-s3 google-cloud-storage partitioning
S3 和 GCS 不是与 HDFS 相反的块存储,因此 Spark 在从这些源读取数据时创建分区的方式对我来说不是很清楚。 我现在正在从 GCS 读取数据,但我得到了 2 个用于小文件(10 字节)的分区,以及 100 MB 的中文件。
有人解释吗?
【问题讨论】:
标签: apache-spark amazon-s3 google-cloud-storage partitioning
通常它是一个配置选项,“关于分区大小的谎言有多大”。
【讨论】: