CBIR 的视觉词袋(从特征中获得)。脚步?

Bag of Visual Words (obtained from features) for CBIR. Steps?

我对将 BOVW 用于 CBIR 的步骤感到非常困惑。我找到了很多关于分类、机器学习和 SVM 的文献,但这并不是我要找的。
我的问题与使用图像查询在数据库中搜索图像相似性有关。

到目前为止我的步数:

  1. 提取特征(例如:ORB、BRISK、SIFT...)。
  2. 将所有图像的特征存储到磁盘。
  3. 读取特征并计算 K 均值以获得质心(我的词汇,对吧?)

现在我卡住了。我发现了许多不同的方法来进行。

这是我的假设:

  1. 为每个 k-means 计算最近邻(FLANN?)
  2. 用一组最近邻构建直方图

我是否还必须为每张图像提取字典,然后为图像编制索引?
为什么需要矢量量化(第 4 步和第 5 步)?

你能建议我一个可行的方法,或者关于这个主题的任何文章、教程吗?

注意:对于 BOVW 的实现,我不能使用 OpenCV,因为 it does not work with binary descriptors 所以我需要尝试使用 sklearn 库。

好的,这正是我要找的:

希望对某人有所帮助。