AdaBoost 和 Viola Jones:使用什么训练集?

AdaBoost and Viola Jones: What training set to use?

我已经实现了我自己版本的 Viola Jones 人脸识别算法,它使用 AdaBoost 作为构建分类委员会的元数据。我的目标是建立一个分类器,可以识别图像中是否有人脸。我正在努力寻找足够的训练数据集来试用该算法。特别是我不知道在哪里可以找到一组负面图像(即不包含面部的图像)。对于正数据集,我打算尝试 Wild 数据集中的 Labeled Faces link

什么是好的负数据集?

一些可能适用于您的问题的解决方案是:

  • 环顾四周后,this 资源似乎有一个非人脸数据集。

  • 您可以考虑的另一个数据集是 Google "things" 数据集,发现 here, (description).

  • 您可能会考虑构建自己的数据集。如果您打算使用具有严重约束(裁剪)图像的 LFW 数据集,您可以获取缩小照片的数据库,有和没有人,运行 一个标准的人脸检测算法可以确定人脸的位置,然后裁剪出面部大小的部分,无论是在裁剪区域中有面部还是没有面部的情况。一些数据集,例如 VGG face,有面部图像,并给出了它们的边界框。您可以考虑使用类似这样的东西。

  • 您也可以使用您知道其中没有人脸的任何数据集,只要它描述了您的算法可能 运行 进入的场景。例如,CIFAR 10 和 CIFAR 100 集有很棒的户外场景,包括一些动物面部特写,这可能对您的算法有很好的负面影响。你可以找到它 here. Another is the Image Net set.

选择此数据集时应谨慎,因为如果不小心,很容易引入偏差。