【问题标题】:How to interpolate/extrapolate within partly empty regular grid?如何在部分空的规则网格内插值/外推?
【发布时间】:2018-05-02 09:19:11
【问题描述】:

我想创建一个 python 函数,在部分空的网格内进行线性插值,并获得最近的外插值。

假设我在 pandas DataFrame 中存储了以下数据:

In [1]: import numpy as np
In [2]: import pandas as pd

In [3]: x = [0,1,2,3,4]
In [4]: y = [0.5,1.5,2.5,3.5,4.5,5.5]
In [5]: z = np.array([[np.nan,np.nan,1.5,2.0,5.5,3.5],[np.nan,1.0,4.0,2.5,4.5,3.0],[2.0,0.5,6.0,1.5,3.5,np.nan],[np.nan,1.5,4.0,2.0,np.nan,np.nan],[np.nan,np.nan,2.0,np.nan,np.nan,np.nan]])
In [6]: df = pd.DataFrame(z,index=x,columns=y)
In [7]: df
Out[7]:
    0.5  1.5  2.5  3.5  4.5  5.5
 0  NaN  NaN  1.5  2.0  5.5  3.5
 1  NaN  1.0  4.0  2.5  4.5  3.0
 2  2.0  0.5  6.0  1.5  3.5  NaN
 3  NaN  1.5  4.0  2.0  NaN  NaN
 4  NaN  NaN  2.0  NaN  NaN  NaN 

我想获得函数myInterp,它返回数据边界内的线性插值(即非 NaN 值)并获得边界外最接近的外推(即 NaN 或无值),例如:

In [1]: myInterp([1.5,2.5]) #linear interpolation
Out[1]: 5.0

In [2]: myInterp([1.5,4.0]) #bi-linear interpolation
Out[2]: 3.0

In [3]: myInterp([0.0,2.0]) #nearest extrapolation (inside grid)
Out[3]: 1.5

In [4]: myInterp([5.0,2.5]) #nearest extrapolation (outside grid)
Out[4]: 2.0

我尝试了许多scipy.interpolate 包的组合但没有成功,有人建议怎么做吗?

【问题讨论】:

    标签: python scipy interpolation


    【解决方案1】:

    是的,不幸的是 scipy 不处理 nans

    来自文档:

    Note that calling interp2d with NaNs present in input values results in undefined behaviour.
    

    即使在 np.masked_array 中屏蔽 nans 也不成功。

    因此,我的建议是从 z 中删除所有 nan 条目,借此机会向 sp.interp2d 提供仅适用于有效数据的 x 和 y 坐标的完整列表,并将 z 也保留为 1D:

    X=[];Y=[];Z=[]                     # initialize new 1-D-lists for interp2
    for i, xi in enumerate(x):         # iterate through x
        for k, yk in enumerate(y):     # iterate through y
            if not np.isnan(z[i, k]):  # check if z-value is valid...
                X.append(xi)           # ...and if so, append coordinates and value to prepared lists
                Y.append(yk)
                Z.append(z[i, k])
    

    这种方式至少 sp.interp2d 可以工作并给出结果:

    ip = sp.interpolate.interp2d(X,Y,Z)
    

    但是,结果中的值不会让你满意:

    In: ip(x,y)
    Out: 
    array([[ 18.03583061,  -0.44933642,   0.83333333,  -1.        , -1.46105542],
           [  9.76791531,   1.3014037 ,   2.83333333,   1.5       ,  0.26947229],
           [  1.5       ,   3.05214381,   4.83333333,   4.        ,   2.        ],
           [  2.        ,   3.78378051,   1.5       ,   2.        ,   0.8364618 ],
           [  5.5       ,   3.57039277,   3.5       ,  -0.83019815,  -0.7967441 ],
           [  3.5       ,   3.29227922,  17.29607177,   0.        ,   0.        ]])
    

    与输入数据相比:

    In:z
    Out: 
    array([[ nan,  nan,  1.5,  2. ,  5.5,  3.5],
           [ nan,  1. ,  4. ,  2.5,  4.5,  3. ],
           [ 2. ,  0.5,  6. ,  1.5,  3.5,  nan],
           [ nan,  1.5,  4. ,  2. ,  nan,  nan],
           [ nan,  nan,  2. ,  nan,  nan,  nan]])
    

    但是恕我直言,这是因为您的数据中的梯度变化太高了。数据样本数量少的情况更是如此。

    我希望这只是一个测试数据集,并且您的实际应用程序具有更平滑的渐变和更多样本。那么我很高兴听到它是否有效......

    然而,零梯度数组的简单测试 - 仅被 nan 破坏了一点 - 可能会提示 插值 应该起作用,而外插只是部分正确:

    In:ip(x,y)
    Out: 
    array([[ 3.        ,  3.        ,  3.        ,  3.        ,  0.        ],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  1.94701008],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  3.        ],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  1.54973345],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  0.37706713],
           [ 3.        ,  3.        ,  2.32108317,  0.75435203,  0.        ]])
    

    源于平凡的测试输入

    In:z
    Out: 
    array([[ nan,  nan,   3.,   3.,   3.,   3.],
           [ nan,   3.,   3.,  nan,   3.,   3.],
           [  3.,   3.,   3.,   3.,   3.,  nan],
           [ nan,   3.,   3.,   3.,  nan,  nan],
           [ nan,  nan,   3.,  nan,  nan,  nan]])
    

    PS:靠近右边看:甚至有有效的条目完全改变了,即错误,这在下面的分析中引入了错误。

    但令人惊讶的是:立方版本在这里的表现要好得多:

    In:ip = sp.interpolate.interp2d(X,Y,Z, kind='cubic')
    
    In:ip(x,y)
    Out: 
    array([[ 3.        ,  3.        ,  3.        ,  3.02397028,  3.0958811 ],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  3.        ],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  3.        ],
           [ 3.        ,  3.        ,  3.        ,  3.        ,  3.        ],
           [ 3.        ,  3.        ,  3.        ,  2.97602972,  2.9041189 ],
           [ 3.        ,  3.        ,  3.        ,  2.9041189 ,  2.61647559]])
    
    In:z
    Out: 
    array([[ nan,  nan,   3.,   3.,   3.,   3.],
           [ nan,   3.,   3.,  nan,   3.,   3.],
           [  3.,   3.,   3.,   3.,   3.,  nan],
           [ nan,   3.,   3.,   3.,  nan,  nan],
           [ nan,  nan,   3.,  nan,  nan,  nan]])
    

    【讨论】:

    • 感谢您的建议,我会尽力回复您
    【解决方案2】:

    由于 scipy.interp2d 不处理 Nans,解决方法是在使用 interp2d 之前将 NaN 填充到 DataFrame 中。这可以通过使用 pandas.interpolate 函数来完成。

    在前面的示例中,以下提供了所需的输出:

    In [1]: from scipy.interpolate import interp2d
    
    In [2]: df = df.interpolate(limit_direction='both',axis=1,inplace=True)
    In [3]: myInterp = interp2d(df.index,df.columns,df.values.T)
    
    In [4]: myInterp(1.5,2.5)
    Out[4]: array([5.])
    
    In [5]: myInterp(1.5,4.0)
    Out[5]: array([3.])
    
    In [6]: myInterp(0.0,2.0)
    Out[6]: array([1.5])
    
    In [7]: myInterp(5.0,2.5)
    Out[7]: array([2.])
    

    【讨论】:

      猜你喜欢
      • 2013-03-13
      • 2014-03-08
      • 2023-03-10
      • 1970-01-01
      • 2011-03-15
      • 2018-08-14
      • 2020-09-25
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多