基于内容的图像检索 (CBIR):特征包还是描述符匹配?

Content Based Image Retrieval (CBIR): Bag of Features or Descriptors Matching?

我读了很多关于最近邻问题的论文,似乎随机 kd 树或 LSH 等索引技术已成功用于基于内容的图像检索 (CBIR),它可以在高维space。一个非常常见的实验是给定一个 SIFT 查询向量,在数据集中找到最相似的 SIFT 描述符。如果我们对所有检测到的 SIFT 描述符重复该过程,我们可以找到最相似的图像。

然而,另一种流行的方法是使用 Bag of Visual Words 并将检测到的所有 SIFT 描述符转换为一个巨大的稀疏向量,可以使用相同的文本技术(例如倒排索引)对其进行索引。

我的问题是:这两种不同的方法(通过最近邻技术匹配 SIFT 描述符 VS SIFT 描述符上的特征袋 + 反转索引)非常不同,我不知道不知道哪个更好

如果第二种方法更好,最近邻在计算机视觉/图像处理中的应用是什么?

哦,天哪,我想你问的是连论文都无法回答的问题。为了进行比较,应该采用两种方法的最先进技术并进行比较,测量速度、准确性和召回率。特性最好的一个比另一个好

就我个人而言,我对 Bag of Visual Words 的了解不多,我只在与文本相关的项目中使用过 bag of words 模型,而不是与图像相关的项目。此外,我很确定我已经看到很多人使用第一种方法(包括我和我们的 research)。


那是我得到的最好的,所以如果我是你,我会搜索一篇比较这两种方法的论文,如果我找不到,我会找到这两种方法的最佳代表(link 你发表了一篇 2009 年的论文,我猜那是旧的),并检查他们的实验。

但是要小心!为了比较最佳代表的方法,您需要确保每篇论文的实验都超级相关,使用的机器相同"powerness",使用的数据具有相同的性质和大小,等等。