【问题标题】:Parquet vs. RecordIOParquet 与 RecordIO
【发布时间】:2021-05-29 22:33:18
【问题描述】:

这些天我正在学习 AWS。所以,如果这个问题太基本,我很抱歉。我已经阅读了一堆关于 Parquet 优于 CSV 的开放式和封闭式问题(已回答:What are the pros and cons of parquet format compared to other formats?),以及 RecordIO-protobuf 在文件与管道模式方面的优势(例如未回答的What makes RecordIO attractive)。但是,我还没有看到 RecordIO-protobuf 和 Parquet 之间的任何比较。

以下是我可以从我的研究中收集到的信息:

除了以上两个区别之外,使用 Parquet 与 recordIO 格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”给我的谷歌结果为零,这让我觉得我在比较苹果和橘子。

如果有任何想法,我将不胜感激。

【问题讨论】:

  • Parquet 最常用于数据分析。如果我们只考虑 AWS,它可以非常有效地存储用于 Athena、Glue、EMR 的数据。 RecordIO 更适用于二进制流数据,例如图片。您不能在 AWS 的数据分析中使用 RecordIO。

标签: amazon-web-services hadoop parquet amazon-sagemaker


【解决方案1】:

Parquet 非常适合分析数据,因为它的文件很小,并且允许您仅扫描感兴趣的列。

RecordIO 格式通常用于训练机器学习模型,以便模型需要的数据仅在需要时呈现。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-05-11
    • 1970-01-01
    • 2019-07-30
    • 2020-01-08
    • 2019-05-03
    • 2015-08-30
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多