【发布时间】:2021-05-29 22:33:18
【问题描述】:
这些天我正在学习 AWS。所以,如果这个问题太基本,我很抱歉。我已经阅读了一堆关于 Parquet 优于 CSV 的开放式和封闭式问题(已回答:What are the pros and cons of parquet format compared to other formats?),以及 RecordIO-protobuf 在文件与管道模式方面的优势(例如未回答的What makes RecordIO attractive)。但是,我还没有看到 RecordIO-protobuf 和 Parquet 之间的任何比较。
以下是我可以从我的研究中收集到的信息:
- Parquet 是列格式,但 RecordIO-protobuf 用于序列化。
- 并非所有 SageMaker 算法都支持 Parquet。大多数 SageMaker 算法在 RecordIO-protobuf 格式下效果最佳。 (https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html)
除了以上两个区别之外,使用 Parquet 与 recordIO 格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”给我的谷歌结果为零,这让我觉得我在比较苹果和橘子。
如果有任何想法,我将不胜感激。
【问题讨论】:
-
Parquet 最常用于数据分析。如果我们只考虑 AWS,它可以非常有效地存储用于 Athena、Glue、EMR 的数据。 RecordIO 更适用于二进制流数据,例如图片。您不能在 AWS 的数据分析中使用 RecordIO。
标签: amazon-web-services hadoop parquet amazon-sagemaker