AdaBoost 和 Viola Jones：使用什么训练集？

AdaBoost and Viola Jones: What training set to use?

我已经实现了我自己版本的 Viola Jones 人脸识别算法，它使用 AdaBoost 作为构建分类委员会的元数据。我的目标是建立一个分类器，可以识别图像中是否有人脸。我正在努力寻找足够的训练数据集来试用该算法。特别是我不知道在哪里可以找到一组负面图像（即不包含面部的图像）。对于正数据集，我打算尝试 Wild 数据集中的 Labeled Faces link。

什么是好的负数据集？

一些可能适用于您的问题的解决方案是：

环顾四周后，this 资源似乎有一个非人脸数据集。
您可以考虑的另一个数据集是 Google "things" 数据集，发现 here, (description).
您可能会考虑构建自己的数据集。如果您打算使用具有严重约束（裁剪）图像的 LFW 数据集，您可以获取缩小照片的数据库，有和没有人，运行一个标准的人脸检测算法可以确定人脸的位置，然后裁剪出面部大小的部分，无论是在裁剪区域中有面部还是没有面部的情况。一些数据集，例如 VGG face，有面部图像，并给出了它们的边界框。您可以考虑使用类似这样的东西。
您也可以使用您知道其中没有人脸的任何数据集，只要它描述了您的算法可能运行进入的场景。例如，CIFAR 10 和 CIFAR 100 集有很棒的户外场景，包括一些动物面部特写，这可能对您的算法有很好的负面影响。你可以找到它 here. Another is the Image Net set.

选择此数据集时应谨慎，因为如果不小心，很容易引入偏差。

AdaBoost 和 Viola Jones：使用什么训练集？

AdaBoost and Viola Jones: What training set to use?

python

machine-learning

image-recognition

computer-vision

viola-jones