Viola-Jones - 24x24 窗口是什么意思？答案

【问题标题】：Viola-Jones - what does the 24x24 window mean?Viola-Jones - 24x24 窗口是什么意思？
【发布时间】：2015-08-11 21:56:20
【问题描述】：

我正在学习 Viola-James 检测框架，我了解到它使用 24x24 碱基检测窗口[1][2]。我在理解这个碱基检测窗口时遇到了问题。假设我有一张 1280x960 像素的图片，里面有 3 个人。当我尝试对这张图片进行人脸检测时，算法会：

将图片缩小到 24x24 像素，
用 24x24 像素大的部分平铺图片，然后测试每个部分，
将 24x24 窗口定位在图像的左上角，然后在整个图像区域上移动 1 像素？

感谢任何帮助，甚至是指向另一个解释的链接。

来源：https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - 第 2 页，积分图像前的最后一段

[2] - 第 4 页，结果

【问题讨论】：

标签： viola-jones

【解决方案1】：

这个视频有帮助吗？时长 40 分钟。

Adam Harvey Explains Viola-Jones Face Detection

也称为 Haar Cascades，该算法在人脸检测方面非常流行。

大约在该页面的一半处是another video，它显示了一个超级慢动作扫描正在进行中，因此您可以看到窗口是如何开始变小的（尽管出于演示目的远大于 24x24）并围绕图像像素移动逐个像素，然后在连续较大的正方形部分上一次又一次地进行。在每个阶段，它仍然只查看那些窗口，就好像它们被重新采样为 24x24 大小一样。

您还可以看到它是如何快速拒绝其中许多窗口并将大部分时间花在看起来像人脸的区域，同时计算越来越复杂的比较变得更加严格。这就是“级联”一词发挥作用的地方。

【讨论】：

谢谢，视频帮了大忙。我将您的答案标记为正确，您能否也添加我在答案中提供的链接？

【解决方案2】：

我发现这个视频完美地解释了检测窗口如何在图片上移动和缩放。我想画一个流程图，但我认为视频能更好地说明它：

https://vimeo.com/12774628

感谢视频的原作者。

【讨论】：