从存储桶读取时的火花分区数 - S3 - GCS

【问题标题】：number of spark partitions when reading from buckets - S3 - GCS从存储桶读取时的火花分区数 - S3 - GCS
【发布时间】：2017-12-11 10:09:53
【问题描述】：

S3 和 GCS 不是与 HDFS 相反的块存储，因此 Spark 在从这些源读取数据时创建分区的方式对我来说不是很清楚。我现在正在从 GCS 读取数据，但我得到了 2 个用于小文件（10 字节）的分区，以及 100 MB 的中文件。

有人解释吗？

【问题讨论】：

标签： apache-spark amazon-s3 google-cloud-storage partitioning

【解决方案1】：

通常它是一个配置选项，“关于分区大小的谎言有多大”。

【讨论】：

你的意思是Spark端的配置吗？像 split.size 或类似的东西？
是的；它是商店/格式的默认值或默认值

猜你喜欢

1970-01-01
2020-08-11
1970-01-01
2016-07-28
2018-10-11
1970-01-01
1970-01-01
2021-11-12
2021-05-14

相关资源

下载 2022-12-13
下载 2022-12-25
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode