【发布时间】:2019-10-05 00:31:18
【问题描述】:
以具有以下结构的 s3 存储桶为例,文件格式为 francescootti_yyyy_mm_dd_hh.csv.gz:
例如:
francescototti_2019_05_01_00.csv.gz,
francescototti_2019_05_01_01.csv.gz,
francescototti_2019_05_01_02.csv.gz,
.....
francescototti_2019_05_01_23.csv.gz,
francescototti_2019_05_02_00.csv.gz
每个小时的文件大约为 30 MB。我希望最终的 hive 表按天分区存储为 orc 文件。
最好的方法是什么?我设想了几种方法,可能是以下其中一种。
一个自动脚本,用于获取每小时文件并将它们移动到 s3 存储桶中相应的日期文件夹中。在这个新结构化的 s3 存储桶上创建分区外部表。
在原始 s3 位置顶部有一个外部 hive 表,并创建一个附加的分区 hive 表,该表从原始表插入。
各自的优缺点是什么?还有其他推荐吗?
【问题讨论】:
标签: amazon-web-services hadoop amazon-s3 hive partition