Viola-Jones - 24x24 window 是什么意思?

Viola-Jones - what does the 24x24 window mean?

我正在了解 Viola-James 检测框架,我了解到它使用 24x24 碱基检测 window[1][2]。我在理解这个碱基检测时遇到问题 window。 假设我有一张尺寸为 1280x960 像素的图像,其中有 3 个人。当我尝试对此图像执行人脸检测时,算法:

  1. 将图片缩小到 24x24 像素,
  2. 用 24x24 像素大的部分平铺图片,然后测试每个部分,
  3. 将 24x24 window 放置在图像的左上角,然后在整个图像区域移动 1px?

感谢任何帮助,甚至 link 另一种解释。

来源:https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - 第 2 页,积分图像之前的最后一段

[2] - 第 4 页,结果

这个视频有帮助吗?时长40分钟。

Adam Harvey Explains Viola-Jones Face Detection

也称为 Haar Cascades,该算法在面部检测方面非常流行。

该页面的下半部分是 another video,它显示了正在进行的超级慢动作扫描,因此您可以看到 window 如何从小开始(虽然比 24x24 大得多用于演示)并逐个像素地围绕图像移动,然后在连续较大的正方形部分上一次又一次地移动。在每个阶段,它仍然只查看那些 windows,就好像它们被重新采样到 24x24 大小一样。

您还可以看到它如何快速拒绝其中的许多 windows 并将大部分时间花在看起来像人脸的区域,同时计算越来越复杂且变得越来越严格的比较。这就是术语 "cascade" 发挥作用的地方。

我发现这个视频完美地解释了检测 window 如何在图片上移动和缩放。我想画一个流程图,但我认为视频更好地说明了它:

https://vimeo.com/12774628

鸣谢视频原作者。