【发布时间】:2019-05-16 14:57:58
【问题描述】:
我有一个由 Hive 填充并作为 Parquet 存储在 S3 上的 Hive 分区表。特定分区的数据大小为 3GB。然后我用 Athena 复制一份:
CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11
生成的数据大小不到一半 (1.4GB)。可能是什么原因?
编辑:相关hive表定义语句:
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
's3://...'
TBLPROPERTIES (
'parquet.compress'='SNAPPY',
'transient_lastDdlTime'='1558011438'
)
【问题讨论】:
-
源和目标的默认压缩编解码器是什么?
标签: amazon-web-services amazon-s3 hive parquet amazon-athena