【发布时间】:2019-02-06 22:17:24
【问题描述】:
我正在创建一个数据管道来读取 S3 中的 NetCDF 数据,并计划将 Amazon Glue 用于 ETL 和自定义 PySpark。
我是否可以使用任何特定的 pyspark 库来支持对存储在 S3 中的数据进行 netCDF 操作。
参考数据集如下:
【问题讨论】:
标签: amazon-web-services amazon-s3
我正在创建一个数据管道来读取 S3 中的 NetCDF 数据,并计划将 Amazon Glue 用于 ETL 和自定义 PySpark。
我是否可以使用任何特定的 pyspark 库来支持对存储在 S3 中的数据进行 netCDF 操作。
参考数据集如下:
【问题讨论】:
标签: amazon-web-services amazon-s3
没有对读取Glue 上的NetCDF 数据的固有支持,您可能必须使用纯spark implementation。
【讨论】: