按最近的“种子”区域对 Python 数组进行分类？答案

【问题标题】：Classifying Python array by nearest "seed" region?按最近的“种子”区域对 Python 数组进行分类？
【发布时间】：2015-10-29 03:53:04
【问题描述】：

我有一个生态栖息地栅格，已将其转换为二维 Python numpy 数组（下面的 example_array）。我还有一个数组，其中包含具有唯一值的“种子”区域（下面的种子数组），我想用它来对我的栖息地区域进行分类。我想将我的种子区域“生长”到我的栖息地区域中，以便为栖息地分配最近的种子区域的 ID，如“通过”栖息地区域所测量的那样。 例如：

我最好的方法是使用ndimage.distance_transform_edt 函数创建一个数组，该数组描述了数据集中每个单元格最近的“种子”区域，然后将其替换回栖息地数组。然而，这并不能很好地工作，因为该函数不会测量“通过”我的栖息地区域的距离，例如下面的红色圆圈代表一个错误分类的单元格：

以下是我的栖息地和种子数据的示例数组，以及我正在寻找的输出类型的示例。我的实际数据集要大得多——超过一百万个栖息地/种子区域。任何帮助将不胜感激！

import numpy as np
import scipy.ndimage as ndimage
import matplotlib.pyplot as plt

# Sample study area array
example_array = np.array([[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
                          [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1],
                          [0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1],
                          [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0],
                          [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1],
                          [1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1],
                          [1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1],
                          [1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
                          [1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0],
                          [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                          [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                          [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# Plot example array
plt.imshow(example_array, cmap="spectral", interpolation='nearest')

seed_array = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 1, 1, 1, 0, 0, 2, 2, 0, 0, 0, 0],
                       [0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# Plot seeds
plt.imshow(seed_array, cmap="spectral", interpolation='nearest')

desired_output = np.array([[0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0],
                           [0, 0, 0, 4, 4, 4, 0, 0, 0, 3, 3, 3],
                           [0, 0, 0, 0, 4, 4, 0, 0, 0, 3, 3, 3],
                           [0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 3, 0],
                           [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 3, 3],
                           [1, 1, 0, 1, 0, 0, 0, 0, 2, 2, 3, 3],
                           [1, 1, 1, 1, 0, 0, 2, 2, 2, 0, 0, 3],
                           [1, 1, 1, 1, 1, 2, 2, 2, 2, 0, 0, 0],
                           [1, 1, 1, 1, 0, 0, 2, 2, 2, 0, 0, 0],
                           [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                           [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                           [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# Plot desired output
plt.imshow(desired_output, cmap="spectral", interpolation='nearest')

【问题讨论】：

您是否尝试过使用迭代方法，逐步扩展每个种子区域，一次将一个正方形从中心“移出”，并在遇到任何已分配的单元格时停止？跨度>
我曾考虑过尝试类似的方法，但我认为这可能是一种棘手的方法，因为我的数据集非常大 - 超过一百万个栖息地补丁/种子区域。我已经相应地更新了问题。

标签： python arrays numpy scipy image-segmentation

【解决方案1】：

您可以使用来自 scikits-image 的watershed segmentation：

距离变换

from scipy import ndimage as nd
distance = nd.distance_transform_edt(example_array)

分水岭分割

from skimage.morphology import watershed, square
result = watershed(-distance, seed_array, mask=example_array, \
                   connectivity=square(3))

结果

subplot(1,2,1)
imshow(-distance, 'spectral', interpolation='none')
subplot(1,2,2)
imshow(result, 'spectral', interpolation='none')

作为另一种变体，按照您的初始方法，您可以使用分水岭来查找与最近种子相连的邻居。正如你在问题中提到的：

计算到种子的距离：

distance = nd.distance_transform_edt(seed_array == 0)

计算距离空间中的分水岭：

result = watershed(distance, seed_array, mask=example_array, \
                   connectivity=square(3))

绘制结果：

figure(figsize=(9,3))
subplot(1,3,1)
imshow(distance, 'jet', interpolation='none')
subplot(1,3,2)
imshow(np.ma.masked_where(example_array==0, distance), 'jet', interpolation='none')
subplot(1,3,3)
imshow(result, 'spectral', interpolation='none')

进一步讨论： 分水岭方法试图通过图像梯度流动从种子峰生长区域。由于您的图像是二进制的，因此区域将从种子点向所有方向均匀扩展，从而为您提供两个区域之间的点。有关分水岭的更多信息，请参阅wikipedia。

在第一个例子中，距离变换是在原始图像中计算的，因此区域从种子开始均匀扩展，直到它们达到中间的分裂点。

在第二个示例中，计算从所有像素到任何种子点的距离变换，然后在该空间中应用分水岭。分水岭基本上会将每个像素分配给它最近的种子，但它会添加一个连接约束。

注意绘图和分水岭中距离图的符号差异。

注意在距离图（两个图中的左图）中，蓝色表示近，红色表示远。

【讨论】：

@Robbi Bishop-Taylor 我已经多次更新我的答案以改进情节。再看一遍，我认为在第二个图中这是您想要的输出。
@imaluengo 是的，我在发表评论后才看到编辑。它现在完全符合我的预期。感谢您的精彩回答！
@Robbi Bishop-Taylor 很高兴它有帮助。我在第二个图中添加了一个额外的图像，显示了蒙版距离变换，以更好地说明空间在哪个分水岭中起作用以及它如何添加连接约束（通过函数调用中的mask= 参数）。