【问题标题】:number of spark partitions when reading from buckets - S3 - GCS从存储桶读取时的火花分区数 - S3 - GCS
【发布时间】:2017-12-11 10:09:53
【问题描述】:

S3 和 GCS 不是与 HDFS 相反的块存储,因此 Spark 在从这些源读取数据时创建分区的方式对我来说不是很清楚。 我现在正在从 GCS 读取数据,但我得到了 2 个用于小文件(10 字节)的分区,以及 100 MB 的中文件。

有人解释吗?

【问题讨论】:

    标签: apache-spark amazon-s3 google-cloud-storage partitioning


    【解决方案1】:

    通常它是一个配置选项,“关于分区大小的谎言有多大”。

    【讨论】:

    • 你的意思是Spark端的配置吗?像 split.size 或类似的东西?
    • 是的;它是商店/格式的默认值或默认值
    猜你喜欢
    • 1970-01-01
    • 2020-08-11
    • 1970-01-01
    • 2016-07-28
    • 2018-10-11
    • 1970-01-01
    • 1970-01-01
    • 2021-11-12
    • 2021-05-14
    相关资源
    最近更新 更多