在巨大的 xarray.DataArray 中随机屏蔽/设置 nan x% 的数据点答案

【问题标题】：randomly mask/set nan x% of data points in huge xarray.DataArray在巨大的 xarray.DataArray 中随机屏蔽/设置 nan x% 的数据点
【发布时间】：2019-05-22 13:01:17
【问题描述】：

我有一个巨大的（约 20 亿个数据点）xarray.DataArray。我想随机删除（屏蔽或替换为np.nan）给定百分比的数据，其中选择删除/屏蔽的每个数据点的概率在所有坐标中都是相同的。我可以将数组转换为numpy.array，但我最好将它保存在 dask 块中以提高速度。

我的数据如下所示：

>> data
<xarray.DataArray 'stack-820860ba63bd07adc355885d96354267' (variable: 8, time: 228, latitude: 721, longitude: 1440)>
dask.array<stack, shape=(8, 228, 721, 1440), dtype=float64, chunksize=(1, 6, 721, 1440)>
Coordinates:
* latitude   (latitude) float32 90.0 89.75 89.5 89.25 89.0 88.75 88.5 ...
* variable   (variable) <U5 u'fal' u'swvl1' u'swvl3' u'e' u'swvl2' u'es' 
* longitude  (longitude) float32 0.0 0.25 0.5 0.75 1.0 1.25 1.5 1.75 2.0 
* time       (time) datetime64[ns] 2000-01-01 2000-02-01 2000-03-01 ...

我定义了

frac_missing = 0.2
k = int(frac_missing*data.size)

这是我已经尝试过的：

this solution 与 np.ndindex 一起使用，但 np.ndindex 对象被转换为一个非常慢的列表。我尝试绕过转换并简单地迭代 np.ndindex 对象，如 here 和 here 所述，但迭代整个迭代器对于大约 20 亿个数据点来说很慢。
np.random.choice(data.stack(newdim=('latitude','variable','longitude','time')),k,replace=False) 返回所需的数据点子集，但不将它们设置为 nan

预期的输出将是xarray.DataArray，其中给定百分比的数据点要么设置为np.nan，要么被屏蔽，最好是相同的形状和相同的dask块。

【问题讨论】：

data[np.random.rand(*data.shape) < frac_missing] = np.nan 有效吗？我没有使用过 dask，但这是你在 numpy 中的做法。
@user545424 这是一个优雅的解决方案，但是它会创建一个与data 大小相同的numpy.array，这太慢了

标签： python numpy dask python-xarray

【解决方案1】：

user545424 的建议是一个很好的开始。为了不遇到内存问题，你可以把它放在一个小的用户定义函数中，并使用方法apply_ufunc将它映射到DataArray上。

import xarray as xr
import numpy as np

testdata = xr.DataArray(np.empty((100,1000,1000)), dims=['x','y','z'])

def set_random_fraction_to_nan(data):
    data[np.random.rand(*data.shape) < .8]=np.nan
    return data

# Set 80% of data randomly to nan
testdata = xr.apply_ufunc(set_random_fraction_to_nan, testdata, input_core_dims=[['x','y','z']],output_core_dims=[['x','y','z']], dask='parallelized')

有关包装自定义函数以使用 xarray 的更多说明，请参阅here.

【讨论】：

当testdata 用于几个最终只在最后进行延迟评估的最终数据产品时，尽管该命令只执行了一次，但它们的缺失模式并不一致。这是非常出乎意料的行为，可以通过函数定义中的np.random.seed(0) 来解决（请参阅我的编辑）。