【问题标题】:Create athena table from files in S3 using AWS Glue使用 AWS Glue 从 S3 中的文件创建 athena 表
【发布时间】:2019-10-01 15:52:01
【问题描述】:

我正在尝试使用 AWS Glue 从 S3 存储桶中的文件创建 Athena 表。我对 AWS 比较陌生,所以即使是朝着正确的方向轻推也会有很大帮助。

问题是我无法解析 S3 存储桶中文件的内容。

我尝试使用 AWS 提供的标准爬虫以及编写自定义分类器(尽管这些似乎仍然需要 S3 存储桶文件为 JSON、XML 或 Parquet 格式)。

我的 S3 存储桶中的文件包含以下代码

{:description "A lovely journey",
 :name "Train",
 :uuid "00a0a0a0bb",
 :code 'foo-code'}
{:description "A fast ride",
 :name "Plane",
 :uuid "aaa333aaa",
 :code 'foo-code'}

我希望得到一个包含两行(用于火车和飞机)和 4 列(“描述”、“名称”、“uuid”和“代码”)的表。

任何关于如何自动将文件转换为 athena 表的建议将不胜感激。

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-athena


    【解决方案1】:

    这看起来像 Clojure EDN。您可能有运气使用 Clojure 库在 Scala 中编写 Glue ETL 作业来读取文件,但不幸的是,如果不将其转换为 JSON,您将无法让 Athena 读取它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-04-05
      • 1970-01-01
      • 2019-07-21
      • 2021-12-22
      • 2020-09-29
      • 2020-06-27
      • 2021-12-02
      相关资源
      最近更新 更多