【发布时间】:2020-03-04 06:00:12
【问题描述】:
- 我知道 parquet 文件如果存储在块存储中是可以拆分的。例如存储在 HDFS 上
- 存储在 AWS s3 等对象存储中时它们是否也可拆分?
- 这让我很困惑,因为对象存储应该是原子的。您要么访问整个文件,要么不访问文件。如果不重写整个文件,您甚至无法更改 S3 文件上的元数据。另一方面,AWS 建议在 S3 中使用可拆分文件格式来提高 Athena 和 hadoop 生态系统中其他框架的性能。
【问题讨论】:
标签: amazon-web-services apache-spark amazon-s3 parquet amazon-athena