基于内容的图像检索？答案

【问题标题】：Content based Image retrieval?基于内容的图像检索？
【发布时间】：2015-03-29 20:00:31
【问题描述】：

我在 Google 上搜索了 基于内容的图像检索（CBIR），实际上 wiki 的定义非常明确，但与主题相关的材料和书籍并不多。谁能解释构成基于内容的图像检索和任何资源的组件是什么？

【问题讨论】：

【解决方案1】：

基于内容的图像检索（CBIR）可以简单地认为是“给定一个查询图像，根据查询图像的内容，得到一个与查询图像最相似的排名列表。传统的方法包括词汇树方法. 详情可以查看这个库libvot。

最近深度学习的成功带来了一些新兴的方法。深度学习方法通常不依赖于局部特征，而是全局图像描述。这是另一个巨大的话题。

【讨论】：

【解决方案2】：

基于内容的图像检索 (CBIR) 的任务可以描述为：“给定一个查询图像，在您的数据库中找到相似的图像”。

据我所知，CBIR 包含三个基本步骤 (1) 特征提取：提取有用的特征来描述图像（对于数据库中的图像和查询图像） (2) 匹配：计算提取的查询特征与数据库图像之间的距离，并根据与查询的距离生成数据库图像的排名 (3) 细化：细化匹配（重新排序）

a) 到目前为止，大部分努力都放在了第一步，特征提取：

传统上，最常用的是手工制作的局部特征（SIFT、SURF 等）。
最近，研究人员提出使用Bag-of-word、VLAD、Fisher vector等编码方法从原始局部特征生成紧凑描述符。好处有两个：（i）紧凑的描述符比原始的局部特征更可靠； (ii) 紧凑的描述符比原始特征具有更小的足迹，因此更容易扩展并适用于大规模检索
最近，随着深度学习在计算机视觉领域取得巨大成功，人们开始转而使用从卷积神经网络 (CNN 代码) 中学习到的特征来替代本地手工特征。 CNN 代码可以原样使用，也可以与上面提到的一些编码方法结合使用。一般来说，CNN 代码的性能优于手工制作的特征（在一些标准基准上得到证实，例如 Holiday dataset、Oxford5K、Oxford100K、Paris、UKB）

b) 第二步：一些简单的距离度量可能会起作用（欧几里得距离、余弦距离等）

c) 最后一步（重新排序）可以使用 RANSAC 或先验知识来执行。（这一步我其实不太了解）

使用以上文字中的一些关键字，您可以通过谷歌找到有用的资源。

【讨论】：