基于内容的图像检索 (CBIR)：特征包还是描述符匹配？

Content Based Image Retrieval (CBIR): Bag of Features or Descriptors Matching?

我读了很多关于最近邻问题的论文，似乎随机 kd 树或 LSH 等索引技术已成功用于基于内容的图像检索 (CBIR)，它可以在高维space。一个非常常见的实验是给定一个 SIFT 查询向量，在数据集中找到最相似的 SIFT 描述符。如果我们对所有检测到的 SIFT 描述符重复该过程，我们可以找到最相似的图像。

然而，另一种流行的方法是使用 Bag of Visual Words 并将检测到的所有 SIFT 描述符转换为一个巨大的稀疏向量，可以使用相同的文本技术（例如倒排索引）对其进行索引。

我的问题是：这两种不同的方法（通过最近邻技术匹配 SIFT 描述符 VS SIFT 描述符上的特征袋 + 反转索引）非常不同，我不知道不知道哪个更好

如果第二种方法更好，最近邻在计算机视觉/图像处理中的应用是什么？

哦，天哪，我想你问的是连论文都无法回答的问题。为了进行比较，应该采用两种方法的最先进技术并进行比较，测量速度、准确性和召回率。特性最好的一个比另一个好

就我个人而言，我对 Bag of Visual Words 的了解不多，我只在与文本相关的项目中使用过 bag of words 模型，而不是与图像相关的项目。此外，我很确定我已经看到很多人使用第一种方法（包括我和我们的 research）。

那是我得到的最好的，所以如果我是你，我会搜索一篇比较这两种方法的论文，如果我找不到，我会找到这两种方法的最佳代表（link 你发表了一篇 2009 年的论文，我猜那是旧的），并检查他们的实验。

但是要小心！为了比较最佳代表的方法，您需要确保每篇论文的实验都超级相关，使用的机器相同"powerness"，使用的数据具有相同的性质和大小,等等。

基于内容的图像检索 (CBIR)：特征包还是描述符匹配？

Content Based Image Retrieval (CBIR): Bag of Features or Descriptors Matching?

cluster-analysis

image-processing

nearest-neighbor

computer-vision

sift