PySpark 和栅格 (GeoTiff) 数据答案

【问题标题】：PySpark and Raster (GeoTiff) dataPySpark 和栅格 (GeoTiff) 数据
【发布时间】：2016-11-17 17:21:56
【问题描述】：

我正在尝试使用 Spark (PySpark) 来对存储在多波段 GeoTiff 中的数据进行分析。我还是个 Spark 新手。

设置：

geotiff 本身足够小，可以在纯 python 中运行——特别是我正在使用 gdal 来读取数据。然后我创建数据框并进行分析。

但是分析需要一段时间。而且，我将经常性地分析数百个 geotiff - 进入 PySpark。

问题：

我编写的代码允许我在本地伪集群上运行分析。但是，由于工作节点无法在本地读取存储在主节点上的数据，因此使用适当的集群会失败。

HDFS 应该来拯救，但是 sc.textFile(..) 返回的原始未处理的 geotiff 内容不是很有用。

我可以预处理数据以将 geotiff 转换为 csv，但额外的开销可能会使其不值得。

我希望找到的两个解决方案是

问题：

谢谢！

【问题讨论】：

【解决方案1】：

如果您想读取和处理整个文件，最简单的方法是结合 binaryFiles 和 io 模块：

from io import BytesIO

(sc
    .binaryFiles(path)
    .values()
    .map(BytesIO)
    .map(some_function_which_expects_opened_binary_file))

关于您剩余的查询：

【讨论】：