【发布时间】:2015-07-13 22:34:59
【问题描述】:
有些人从图像的块中提取 SIFT 特征,例如“128 维 SIFT 描述符是在 16×16 像素块上计算的,在水平和垂直方向上以 8 像素的规则间距在网格上密集采样”。
他们为什么不直接从原始图像中提取 SIFT?像这样从原始图像块中提取 SIFT 有什么好处?
谢谢!
【问题讨论】:
标签: image-processing sift
有些人从图像的块中提取 SIFT 特征,例如“128 维 SIFT 描述符是在 16×16 像素块上计算的,在水平和垂直方向上以 8 像素的规则间距在网格上密集采样”。
他们为什么不直接从原始图像中提取 SIFT?像这样从原始图像块中提取 SIFT 有什么好处?
谢谢!
【问题讨论】:
标签: image-processing sift
在我的图像处理问题中,我还需要算法忽略的图像区域中的 SIFT 特征。所以我强制 SIFT 算法从图像的每个补丁中给我特征。
【讨论】:
首先我想说一个 SIFT 特征是一个 128 维的描述符。 128 个维度是使用包含实际兴趣点(从 DoG 获得的极值)的 16x16 邻域计算的。这很具体(more information and links to Lowes papers)
客观的部分是为什么他们会在具有规则 8x8 间距的网格上进行采样?我能想到的唯一原因是真正减少计算时间
创建已知数量的描述符。如果图像是 MxN,那么描述符数 = (M/8) x (N/8) 在整个图像上运行 SIFT 可能会产生许多聚集在一起的描述符。并且可能是无限的。由于每个描述符的计算成本很高,因此减少数量会减少计算时间。即使是 100x100 的小图像也可能有数百个描述符。这种方法会将其减少到 ~144
查找关键点本身实际上是一项繁重的任务。它涉及检查 DoG 金字塔的每一个体素,并检查以体素为中心的极值(最大值或最小值)(对于每个八度和每 3 个 DoG 音阶)。如果您可以跳过这一步并假设每个网格间距为 8x8,您将消除遍历整个 DoG 以及所有八度音阶和音阶的昂贵操作。
再次,这些只是我的意见,但我希望它可以帮助你一点
【讨论】: