【问题标题】:Using mixed formats parquet and JSON with AWS Athena在 AWS Athena 中使用混合格式 parquet 和 JSON
【发布时间】:2018-09-10 06:29:57
【问题描述】:

我有用 JSON 编码的事件。每个事件都在对象结构中嵌套了一个数字标识符,用于指定事件的类型。

我想使用带有两列架构、事件类型和原始 JSON 的 parquet 将我的事件存储在 S3 中。这样,每当我需要进行仅使用某些类型事件的查询时,我就不必阅读每个事件来找出它的类型。

明确地说,我希望使用 parquet,以便 Athena 可以通过读取第一列快速获取我关心的事件,然后使用第二列的内容(原始 JSON 事件)执行查询。

这可能吗?如何?如果没有,关于如何通过仅访问我想包含在查询中的事件来节省资源的任何建议?

【问题讨论】:

    标签: amazon-athena


    【解决方案1】:

    您需要按事件类型将存储桶组织到 S3 存储桶中,并通过 Athena 中定义的分区表来利用它。更多关于雅典娜分区here.

    【讨论】:

      猜你喜欢
      • 2019-06-18
      • 2017-06-11
      • 1970-01-01
      • 2019-04-19
      • 2020-01-10
      • 1970-01-01
      • 2017-10-23
      • 2021-06-22
      • 2022-10-14
      相关资源
      最近更新 更多