将压缩（gzip）数据从 s3 导入 hive答案

【问题标题】：importing compressed (gzip) data from s3 to hive将压缩（gzip）数据从 s3 导入 hive
【发布时间】：2016-06-10 21:53:38
【问题描述】：

我在 s3://mybucket/file/*.gzip 中有一堆 .gzip 文件。

我正在使用以下方法加载到表中：

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.enforce.bucketing = true;
SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create external table db.tablename(col1 dataype,col1 dataype,col1 dataype,col1     dataype) PARTITIONED BY (col datatype)
CLUSTERED BY (col2) SORTED BY (col1,col2) into 200 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION 's3://mybucket/file';

它会创建表，但不会将数据从 s3 加载到 hive/hdfs。

有什么帮助吗？

谢谢桑吉夫

【问题讨论】：

标签： hadoop amazon-s3 hive hdfs amazon

【解决方案1】：

我认为您存在于 s3://mybucket/file/ 中的文件未按 Hive 分区的正确目录结构组织。我建议您在 s3://mybucket/file/ 上创建一个没有分区和桶的外部表，然后编写配置单元查询以从该表中读取数据并写入您的分区/桶表。

【讨论】：