Viola-Jones - 24x24 window 是什么意思？

Viola-Jones - what does the 24x24 window mean?

viola-jones

我正在了解 Viola-James 检测框架，我了解到它使用 24x24 碱基检测 window[1][2]。我在理解这个碱基检测时遇到问题 window。假设我有一张尺寸为 1280x960 像素的图像，其中有 3 个人。当我尝试对此图像执行人脸检测时，算法：

将图片缩小到 24x24 像素，
用 24x24 像素大的部分平铺图片，然后测试每个部分，
将 24x24 window 放置在图像的左上角，然后在整个图像区域移动 1px？

感谢任何帮助，甚至 link 另一种解释。

来源：https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - 第 2 页，积分图像之前的最后一段

[2] - 第 4 页，结果

这个视频有帮助吗？时长40分钟。

Adam Harvey Explains Viola-Jones Face Detection

也称为 Haar Cascades，该算法在面部检测方面非常流行。

该页面的下半部分是 another video，它显示了正在进行的超级慢动作扫描，因此您可以看到 window 如何从小开始（虽然比 24x24 大得多用于演示）并逐个像素地围绕图像移动，然后在连续较大的正方形部分上一次又一次地移动。在每个阶段，它仍然只查看那些 windows，就好像它们被重新采样到 24x24 大小一样。

您还可以看到它如何快速拒绝其中的许多 windows 并将大部分时间花在看起来像人脸的区域，同时计算越来越复杂且变得越来越严格的比较。这就是术语 "cascade" 发挥作用的地方。

我发现这个视频完美地解释了检测 window 如何在图片上移动和缩放。我想画一个流程图，但我认为视频更好地说明了它：

https://vimeo.com/12774628

鸣谢视频原作者。

Viola-Jones - 24x24 window 是什么意思？

Viola-Jones - what does the 24x24 window mean?

viola-jones