【问题标题】:How can I use custom Pyspark in Amazon Glue to read netCDF data?如何在 Amazon Glue 中使用自定义 Pyspark 读取 netCDF 数据?
【发布时间】:2019-02-06 22:17:24
【问题描述】:

我正在创建一个数据管道来读取 S3 中的 NetCDF 数据,并计划将 Amazon Glue 用于 ETL 和自定义 PySpark。

我是否可以使用任何特定的 pyspark 库来支持对存储在 S3 中的数据进行 netCDF 操作。

参考数据集如下:

https://aws.amazon.com/blogs/publicsector/accessing-noaas-goes-r-series-satellite-weather-imagery-data-on-aws/?fbclid=IwAR3K_TS89Yolra5IKltINsI8NcPf8dk9FgF2X_iRBNVBIBQxqAZOXPi8jkY

【问题讨论】:

    标签: amazon-web-services amazon-s3


    【解决方案1】:

    没有对读取Glue 上的NetCDF 数据的固有支持,您可能必须使用纯spark implementation

    【讨论】:

      猜你喜欢
      • 2020-04-14
      • 2019-05-10
      • 2023-01-20
      • 2016-03-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-12-15
      • 2015-06-09
      相关资源
      最近更新 更多