学习预习笔记
交互式图像分割:首先由用户以某种交互手段指定图像的部分前景与部分背景,然后算法以用户的输入作为分割的约束条件自动地计算出满足约束条件下的最佳分割。例如,典型的交互手段包括用一把画刷在前景和背景处各画几笔以及在前景的周围画一个方框等。
全局前景估计:对前景进行运动估计
简述
人类大脑是根据界门纲目科属种识别动物,本篇文章与人脑识别动物原理相似,从大到小将动物归类。举一个例子,啄木鸟的“科”上属于Picidae,在“属”上是Dryobates,在“种”是Dryobates Pubescens。该篇文章就是利用这样的思想将鸟类细分。
如何利用这样层层递进式的分类关系描述动物是本文的重点。为了实现这样的思想,本文的系统分为两部分,Detection network与Description network。Detection network的每一层用来处理单一分类的信息,比如判断“科”有一层,判断“属”又是一层,这些层是并行存在的。Description network是基于Detection network网络之上,对于前一个网络进行进一步判断得到该图片的最终归属类别。接下来详细介绍Detection network与Description network的运行机制。
Detection network
1.生成热图
用每一小类特征训练VGG网络,最后得到了512个通道。因为该VGG网络与区域特征点(regions of interests简写成ROI)有着密切关系,选取该512个池化层参数通过以下规则运算得到热图:
1.将512个参量归一化到范围[0,M]之间
2.求出所有参量平均值m
3.乘以(M-m)^2
得到归一化算子N
接着利用式一求得热图
这个计算规则和人脑神经识别图像的运算规则一致。
2.标记特征区域
接着需要运用热图滤除不相关区域,这是因为由于动物的保护色,会让神经网络的识别产生些许误差。
该文章将“能量”定义为热图所有封闭元素的总和,并将能量大,中,小分别定义为前景,未知和背景区域,并分别用白黑灰表示。通过对比分割图像与能量标识图像的重合部分得到物体边缘的置信区间。
3. Detection network网络的构成
根据上一步滤波后图片的大小将图片分为大中小三类。Detection network的粗分类(处理科的分类)、较细分类(处理属的分类)和细分类(处理种的分类)分别需要处理大图片、大图片和中图片与全部图片。再利用以上1、2的规则进行物种分类判断。
Description network
当然,仅仅得到每一小类的特征是不够的,人脑处理信息的时会把所有信息综合起来判断。Description network就是起到一个这样的作用,它收集来自前一个网络的所有标志信息,形成一个树状的综合判断群。流程图如下图所示。
实验测试
本文采用了CUB-200-2011, Birdsnap 和 Aircraft数据集,分别在使用Bounding box与未使用Bounding box的情况下进行测试。得到的结果如下:
可见,该系统在准确度上有了进一步的提升。