【发布时间】:2020-08-15 04:43:27
【问题描述】:
我正在 athena 中以 parquet 和 orc 格式测试一个大型数据集(1.5TB,5.5b 条记录)。我的第一个测试是一个简单的,计数查询-
SELECT COUNT(*) FROM events_orc
SELECT COUNT(*) FROM events_parquet
parquet 文件作为 orc 文件运行此查询需要一半时间。但我注意到的一件事是,当对 parquet 文件运行计数时,它会在扫描字节时返回 0kb,而对于 orc,它会返回 78gb。这对镶木地板很有意义,因为计数在元中,无需扫描字节。 orc 也有一个带有计数的元数据,但它似乎没有使用该元数据来确定这些文件的计数。
为什么 Athena 不使用 orc 文件中的元数据来确定计数,而在 parquet 文件中显然是这样做的?
【问题讨论】:
-
在ORC的情况下你的数据压缩了吗?
标签: hive parquet presto amazon-athena orc