【发布时间】:2018-09-10 06:29:57
【问题描述】:
我有用 JSON 编码的事件。每个事件都在对象结构中嵌套了一个数字标识符,用于指定事件的类型。
我想使用带有两列架构、事件类型和原始 JSON 的 parquet 将我的事件存储在 S3 中。这样,每当我需要进行仅使用某些类型事件的查询时,我就不必阅读每个事件来找出它的类型。
明确地说,我希望使用 parquet,以便 Athena 可以通过读取第一列快速获取我关心的事件,然后使用第二列的内容(原始 JSON 事件)执行查询。
这可能吗?如何?如果没有,关于如何通过仅访问我想包含在查询中的事件来节省资源的任何建议?
【问题讨论】:
标签: amazon-athena