为什么要在补丁而不是整个图像上提取 SIFT 特征？答案

【问题标题】：Why extract SIFT features on patches instead of the whole image?为什么要在补丁而不是整个图像上提取 SIFT 特征？
【发布时间】：2015-07-13 22:34:59
【问题描述】：

有些人从图像的块中提取 SIFT 特征，例如“128 维 SIFT 描述符是在 16×16 像素块上计算的，在水平和垂直方向上以 8 像素的规则间距在网格上密集采样”。

他们为什么不直接从原始图像中提取 SIFT？像这样从原始图像块中提取 SIFT 有什么好处？

谢谢！

【问题讨论】：

【解决方案1】：

在我的图像处理问题中，我还需要算法忽略的图像区域中的 SIFT 特征。所以我强制 SIFT 算法从图像的每个补丁中给我特征。

【讨论】：

【解决方案2】：

首先我想说一个 SIFT 特征是一个 128 维的描述符。 128 个维度是使用包含实际兴趣点（从 DoG 获得的极值）的 16x16 邻域计算的。这很具体（more information and links to Lowes papers）

客观的部分是为什么他们会在具有规则 8x8 间距的网格上进行采样？我能想到的唯一原因是真正减少计算时间

创建已知数量的描述符。如果图像是 MxN，那么描述符数 = (M/8) x (N/8) 在整个图像上运行 SIFT 可能会产生许多聚集在一起的描述符。并且可能是无限的。由于每个描述符的计算成本很高，因此减少数量会减少计算时间。即使是 100x100 的小图像也可能有数百个描述符。这种方法会将其减少到 ~144
查找关键点本身实际上是一项繁重的任务。它涉及检查 DoG 金字塔的每一个体素，并检查以体素为中心的极值（最大值或最小值）（对于每个八度和每 3 个 DoG 音阶）。如果您可以跳过这一步并假设每个网格间距为 8x8，您将消除遍历整个 DoG 以及所有八度音阶和音阶的昂贵操作。

再次，这些只是我的意见，但我希望它可以帮助你一点

【讨论】：