在计算机视觉中使用词袋的原因

Reasons for using Bag of Words in Computer Vision

为什么要在计算机视觉中选择词​​袋方法?

例如:如果使用 HOG 特征作为描述符并对这些特征应用 BOW 方法,则结果将是直方图的直方图。

我可以看到这种方法的降维优势以及生成的 bin 的固定大小,但这真的是唯一的原因吗?因为减少也会造成信息的丢失。

我也可以考虑将图像调整为固定的(通常较小的)尺寸并计算 HOG。生成的向量也将具有固定大小,因此它也可以与分类器一起使用。这也会导致信息丢失,尤其是当固定图像尺寸非常小但不会像 k 均值那样剧烈时。

我认为这个想法是这样的:低级特征检测器找到小的 "relevant" patches,然后描述符 + k-means 算法将它们打包成像 "a headlight", "a tire"、"a car roof"。然后,如果你找到一对车头灯、两个轮胎和一个车顶,你可能在看车。

优点是 轮胎和大灯在哪里并不重要,所以无论您是看侧视图还是侧视图都没有关系前视图或不同型号的汽车。如果将特征描述符直接应用于整个图像,则侧视图和前视图将获得完全不同的描述。