【发布时间】:2011-10-28 08:51:12
【问题描述】:
我设置了一个 Amazon ElasticMapreduce 作业来运行 hive 查询
CREATE EXTERNAL TABLE output_dailies (
day string, type string, subType string, product string, productDetails string,
uniqueUsers int, totalUsers int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '${OUTPUT}';
INSERT OVERWRITE TABLE output_dailies
select day, type, subType, product, productDetails, count(distinct accountId) as uniqueUsers, count(accountId) as totalUsers from raw_logs where day = '${QUERY_DATE}' group by day, type, subType, product, productDetails;
作业完成后,配置为在 S3 上的输出位置将包含 5 个具有此模式 task_201110280815_0001_r_00000x 的文件,其中 x 从 0 变为 4。这些文件很小,每个 35 KB。
是否可以指示 hive 将结果存储在单个文件中?
【问题讨论】:
标签: amazon-s3 hadoop hive amazon-emr