【问题标题】:ORC vs Parquet File Formats [closed]ORC vs Parquet文件格式[关闭]
【发布时间】:2020-11-28 04:00:49
【问题描述】:

我读过很多博客和文章,其中引用了“ORC 文件格式在 Apache Hive 中非常好用,Parquet 在 Apache Spark 中非常好用”,但实际上并没有一个适当的详细解释。

请提供一些例子来证明这一点。

【问题讨论】:

标签: apache-spark hive parquet orc


【解决方案1】:

Hive 有一个矢量化 ORC 阅读器,但没有矢量化 parquet 阅读器,而 spark 有一个矢量化 parquet 阅读器,但没有矢量化 ORC 阅读器。 Spark 在 parquet 上表现最好,hive 在 ORC 上表现最好。

向量化意味着行被批量解码,显着提高内存局部性和缓存利用率。

[更新]

Spark 2.3 已经引入了原生矢量化 ORC 阅读器,它在阅读 ORC 文件和原生 parquet 阅读器方面增加了改进。

【讨论】:

  • 从 Spark 2.3 开始,Spark 支持矢量化 ORC 阅读器
猜你喜欢
  • 2015-11-29
  • 2021-07-18
  • 2017-11-30
  • 2018-07-31
  • 2020-08-15
  • 1970-01-01
  • 2019-05-07
  • 2016-07-15
  • 2017-08-07
相关资源
最近更新 更多