【发布时间】:2011-09-27 18:26:49
【问题描述】:
我正在研究定向梯度直方图 (HOG) 特征,我正在尝试实现直方图箱的三线性插值,如 Dalal 博士论文中所述。他解释了如下引用的插值过程:
编辑:粗略地说,HOG 特征是从一个 64x128 像素的窗口中提取的,该窗口分为块。每个块由 2x2 个单元组成,一个单元是 8x8 像素区域。提取从计算图像的一阶导数开始,然后计算每个像素的方向和大小。计算每个 8x8 像素单元的块内的方向直方图,其中像素根据像素的方向对具有幅度值的直方图做出贡献,并且幅度在方向和位置的相邻 bin 中心之间内插。直方图包含 9 个 bin,代表 0-180 度,步幅为 20 度。该算法的整体描述可以在这里看到:http://4.bp.blogspot.com/_7NBDeKCsVHg/TKBbldI8GmI/AAAAAAAAAG0/G-OXUz1ouPQ/s1600/a1.bmp
我们首先描述线性插值 在一维空间中,然后 将其扩展到 3-D。设 h 为直方图 具有箱间距离(带宽) b。 h(x) 表示 以 x 为中心的 bin 的直方图。 假设我们要插入一个 权重 w 在点 x 进入 直方图。让 x1 和 x2 成为两个 点的最近邻箱 x 使得 x1 ≤ x
让 w 在 3-D 点 x = [x, y, z] 是要插值的权重。让 x1 和 x2 是两个角向量 包含 x 的直方图立方体,其中 在每个分量 x1 ≤ x
.
我们计算单元格的直方图,每个像素都以其大小值对直方图做出贡献。我从公式中了解到的是,x 和 y 代表细胞在检测窗口中的位置,z 是 bin 编号。在一个 64x128 的检测窗口中,有 8x16 个单元格和 9 个方向箱,因此我们的直方图表示为 h(8,16,9)。如果上述陈述正确,那么 (x1,y1) 和 (x2,y2) 是否分别代表前一个单元格和字母单元格? z1 和 z2 是否表示前一个和字母方向箱?那么带宽 b=[bx, by, bz] 呢?
如果有人能澄清这些问题,我将不胜感激。
谢谢。
【问题讨论】:
-
是的,这是原始参考。谢谢!
-
参见论文第 117 页的 OPs 图片。第 95 页描述了直方图的构造。
-
您是否尝试过制作此类直方图的 3D 散点图?我认为这很有启发性,并且可以解释他们为什么要进行插值。
-
如果您能解释将哪些信息分箱到直方图中,将会很有帮助。它似乎至少涉及尺度空间金字塔和二维光流场。
标签: image-processing computer-vision