【发布时间】:2019-04-04 01:11:18
【问题描述】:
是否可以通过分区对 S3 文件进行最简单的并发 SQL 查询?
这个问题看起来你必须从 3 个选项中选择 2 个。
您可以使用 S3 Select 对 S3 进行并发 SQL 查询。但是 S3 Select 不支持分区,它也可以一次处理单个文件。
Athena 支持分区和 SQL 查询,但它有 20 个并发查询的限制。限额可以提高,但没有保证和上限。
您可以通过 EMRFS 配置在 S3 上工作的 HBase,但这需要很多配置。而且我认为数据应该通过 HBase(另一种格式)写入。 也许更简单的解决方案?
【问题讨论】:
-
如果您有节制地查询,Athena 是一个不错的选择(并发限制不是问题)。对于持续(例如生产)工作负载,独立 Presto (aws.amazon.com/marketplace/pp/B07DKV5659) 或 EMR 上的 Presto 是很好的选择。
标签: amazon-web-services amazon-s3 amazon-athena presto amazon-s3-select