在自然图像中进行对象检测的步骤？答案

【问题标题】：The steps to do object detection in natural image?在自然图像中进行对象检测的步骤？
【发布时间】：2015-05-06 14:03:48
【问题描述】：

我是计算机视觉的新手，谁能告诉我在自然图像中进行对象检测的步骤？（这里的对象是指标志）。我根据自己的理解起草了以下步骤：

问题陈述：假设有 20 个参考标志，给定一张自然图像，说出图像中存在哪个标志以及在哪个位置（边界框）。

Step1：收集多张（即100张）包含对应logo的图片，裁剪出logo区域。因此，每个徽标都有 100 个示例。这一步的目的是处理不同条件下的logo，比如光照、旋转等。

第 2 步：收集不包含任何徽标的随机图片。

第3步：提取特征，例如标志和随机图像，使用SIFT特征。

Step4：现在，问题变成了多类分类问题。有21类，20类对应20个logo，1类对应随机图片。

问题1：使用哪个分类器？什么是输入，什么是输出？

Step5：给定一张测试图像，提取SIFT特征，将所有特征作为输入？

问题2： 对于测试图像，使用什么作为输入以及如何进行分类来判断它是否包含徽标，以及它是哪个徽标?

问题3：如何判断检测到的logo的位置？

问题 4： 任何图像标记或裁剪工具？

如果我的程序不正确，请告诉我如何逐步执行此操作。提前致谢！！

【问题讨论】：

标签： image-processing machine-learning computer-vision object-detection object-recognition

【解决方案1】：

问题1：我可以建议您使用Support Vector Machine。对于具有小数据集的任务，这是一个简单但功能强大的分类器。对于大多数流行的编程语言，很容易找到 SVM 的实现。您应该为带有或不带有相同大小徽标的补丁提取 SIFT（或任何其他）特征，并将它们用作分类器输入。地面实况分类标签是徽标名称和一些干净补丁的标签。因此，如果您有 20 个徽标，您将有 21 个不同的类别标签。

问题2和3：你应该使用滑动窗口技术。它的本质在于您可以大步地裁剪测试图像的补丁，并使用您的分类器来预测是否有一些标志。您可以阅读更多相关信息，例如，here。

问题4：好像那个帖子有答案：image labelling and annotation tool

一些建议：

Bootstrapping 可以帮助您找到最难用于没有徽标的分类器补丁
使用交叉验证来确定 SIFT、SVM 或最佳补丁大小的最佳参数。

祝你好运！

【讨论】：

非常感谢您的及时答复。我将根据您的建议对其进行测试。顺便说一句，滑动窗口慢吗？由于我需要尝试不同的尺码，有其他选择吗？
是的，滑动窗口可能会很慢，但我不知道其他同样有效的方法。您可以通过为整个图像提取 SIFT 然后获取补丁而不是分别为每个补丁提取 SIFT 来优化您的解决方案。金字塔方法也可能有效：您可以在小图像上找到候选位置，然后对其进行微调。还有一些更复杂的方法，比如卷积神经网络，可以帮助避免使用滑动窗口，但是尝试起来要困难得多。