【发布时间】:2019-02-24 05:20:56
【问题描述】:
我们的数据是使用 s3://bucket/YYYY/MM/DD/HH 存储的,我们正在使用 aws firehouse 近乎实时地将镶木地板数据放到那里的位置。我可以很好地使用 AWS athena 查询数据,但是我们有一个配置单元查询集群,它在启用分区时给查询数据带来了麻烦。
这就是我正在做的事情:
PARTITIONED BY (
`year` string,
`month` string,
`day` string,
`hour` string)
当 s3 上的数据存储为 s3:bucket/YYYY/MM/DD/HH 时,这似乎不起作用
但这对s3:bucket/year=YYYY/month=MM/day=DD/hour=HH 确实有效
鉴于 firehose 严格的存储桶路径,我无法修改 s3 路径。所以我的问题是,当您的数据路径上没有明确定义的列名(例如 year = 或 month= 时,hive ddl 中正确的分区方案是什么?
【问题讨论】:
标签: amazon-s3 hive partitioning ddl amazon-kinesis-firehose