CBIR 的视觉词袋（从特征中获得）。脚步？

Bag of Visual Words (obtained from features) for CBIR. Steps?

我对将 BOVW 用于 CBIR 的步骤感到非常困惑。我找到了很多关于分类、机器学习和 SVM 的文献，但这并不是我要找的。
我的问题与使用图像查询在数据库中搜索图像相似性有关。

到目前为止我的步数：

现在我卡住了。我发现了许多不同的方法来进行。

这是我的假设：

我是否还必须为每张图像提取字典，然后为图像编制索引？
为什么需要矢量量化（第 4 步和第 5 步）？

你能建议我一个可行的方法，或者关于这个主题的任何文章、教程吗？

注意：对于 BOVW 的实现，我不能使用 OpenCV，因为 it does not work with binary descriptors 所以我需要尝试使用 sklearn 库。

好的，这正是我要找的：

希望对某人有所帮助。