深度学习文献总结

文献1. Hinton在《科学》上发表的“reducing the dimensionality of data with neural networks”.

引用格式：Geoffery E. Hinton, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science. 2006 Jul 28;313(5786):504-7.

总结：在本文中，作者提出：高维数据可以通过训练一个多层神经网络和一个小的中心层转换为用低维度神经节点表示的数据。文中认为在初始化权重比较好的情况下，采用梯度下降进行权重微调的“autoencoder”网络，具有很好的学习能力，但是在初始权重不好时效果表差，该文的主要贡献是提出了一种有效的初始化权重方法，该方法允许深度自编码网络（deep encoder networks）从低维编码（low-dimensional codes）中相比于主成分分析，学习得更快更好。主成分分析常用于降低数据的维度。

文献2. 2002年Hinton在《Neural Computation》上发表的“A fast learning algorithm for deep belief nets”。引用格式：Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh, A fast learning algorithm for deep belief nets Neural Compute, 18(7), 1527-54 (2006)

总结：文中提出了一种称为“互补先验”的方法来解决在含有多个隐藏层的网络中权重推算的问题；然后基于“互补先验”提出了一种快速贪婪的算法，该算法能够一次学习一层节点的权重，可以用来在网络学习的权重微调阶段进行初始化。经过权重微调，一个含有3层Hidden layers的网络可以对手写数字图像进行很好的分类。效果比最好的（06年之前）的判别学习算法都要好。

文献3. Hinton在1995年在《Science》上发表的”The wake-sleep algorithm for unsupervised neural networks”。引用格式：Hinton G E, Dayan P, Frey B J, et al. The "wake-sleep" algorithm for unsupervised neural networks.[J]. Science, 1995, 268(5214):1158-61. 1.在本文中作者提出“Wake-sleep”算法，在“Wake”阶段，自底向上学习，在“Sleep”阶段，自顶向下学习Bottom-up是指对数据进行抽象，而抽象具体表现就是input与隐藏层之间是通过”recognition”connection连接; 2.“top-down”就是泛化问题，在下一层对上一层进行重建; 3. 在“Wake”阶段，调整generative connections 以使重构最接近input;在“sleep”阶段，调整recognition connections表征以使抽象（识别）出来的向量在上一层中能更好地**各个神经元。文中首先引入损失函数

C(a,d) = C(a) + C(a|d)

文中认为调节”recognition weights”不应以最小化C (d) 为目标，而是还应该考虑各种分布的熵，损失函数应该为另外一种形式。（需要在Word中用Mathtype软件编辑），在generative阶段，认为训练出来的概率分布Q应该尽可能接近后验概率分布，文中假设已知底层时，上层神经元之间的分布是独立的，那么Q 就可以写成一种连乘积的形式。用另外一种说法概括是：使得高层的特征提取器能够和底层进行通信，同时可以很容易地使用随机二态神经元的分层网络来实现，这些神经元的**概率关于总输入是一个平滑非线性方程，其中si和sj是神经元i和j的活跃度（activity），从上而下生成图像的隐藏层神经元的二进制状态可以被用来作为它训练从下而上的认知权值（reco-weights）时的期望输出。生成权值为generative weights，简称gene-weights，认知权值为recognition weights，reco-weights，这样，基于少量随机值在2种学习阶段中切换，可以同时学习得到认知权值。

知乎中摘的CVPR2016中比较好的论文：

作者：孔巴巴
链接：http://www.zhihu.com/question/47385572/answer/106144285

在CVPR会场更新
ResNet获得了best paper.

这个题目被邀请真是受宠若惊。我关注的方向是2D图像检测和识别，其实这个方向更新比较快，很多文章在早就在Arxiv上挂出来了。说亮点的话还是等开完会吧。
说几个感觉比较好的工作（排名不分前后），随时更新。。。

1. Deep Residual Learning for Image Recognition（Best Paper）
这是kaiming组那篇影响力很大的文章，不用说了

2. You Only Look Once: Unified, Real-Time Object Detection
YOLO用纯CNN来做检测，可以达到实时的效果，虽然今年SSD的效果做的好很多，但YOLO确实起到了先驱的作用。另，一作貌似是一个**人物。

3. Training Region-Based Object Detectors With Online Hard Example Mining
这个工作比较新，他提供了在F-RCNN的框架下，在训练过程中如何对样本进行选择的一种解决方案。而且确实work。

4. Accurate Image Super-Resolution Using Very Deep Convolutional Networks
这是做超分辨率重建的一篇文章，主要的创新点在于在网络的最后用原图来辅助重建，有点残差网的意思，当然效果也很好。

5. Inside-Outside Net: Detecting Objects in Context With Skip Pooling and Recurrent Neural Networks
在F-RCNN的框架下如何对特征进行增强，文章主要考虑了multi-layer fusion和context信息。

6. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
通过对CNN的多层特征进行融合提高定位准确性，利用类似于Faster-RCNN的方式进行目标检测

7. Exploit All the Layers: Fast and Accurate CNN Object Detector With Scale Dependent Pooling and Cascaded Rejection Classifiers.
通过在CNN的多层建立级联分类器来抑制负样本（在目标检测中对负样本进行合理抑制起到了关键作用）

文献4. CVPR2016会议论文：《Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks》，引用格式：Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks[C]. 2015.

总结：文中提出了一种基于上下文和多尺度表征的目标检测网络，称为Inside-Outside Net（简称ION），ION采用空域递归神经网络采取上下文信息，用间隔池化（skip pooling）提取多尺度表征信息，然后将两种信息集成，如下图所示：

深度学习文献总结

ION从con，conv4，conv5这3个卷积层的池化后结果提取多尺度信息，这样这些尺度信息具有不同的分辨率和不同层次的抽象。经过conv5后的抽象结果再经过两层4方向改进RNN得到有关上下文的特征，4向RNN至少要有两层以保证上下文信息在全图像内经过了传播。多尺度信息与上下文信息经过L2正则化后连接在一起组成特征块，特征块经过尺度变换，1*1卷积，最后经过两层全连接网络输出到softmax和bbox，分别进行区域目标估计和标定框调整。

文献5. CVPR2016会议论文：《HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection》，引用格式：Kong T, Yao A, Chen Y, et al. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection[C]. 2016.

总结：针对小目标检测困难和目标定位粗糙两大问题，文中提出一种新的联合建议区域产生与目标检测的网络。以往的region based proposal nets的问题有两个：一是产生的建议区域（proposals）太多，二是检测效率低。本文的主要思想是将建议分布产生（proposal generation ）和目标检测（object detection）联合在一起，采用了如下的网络：

深度学习文献总结

首先是特征提取，采用的是coarse-to-fine的方式，组成了一个超特征映射集，这个超特征映射集由多个特征图组成，特征图来源于原始图片经过多层卷积，为了使每个特征图具有相同大小，对每一层卷积出来的结果采取不同的采样策略，比如第一层卷积结果采用MaxPooling，后面的卷积层结果采用逆卷积，这样组合出来的超特征映射集既具有全局轮廓信息，又有局部细节信息。

在建议区域产生（proposal generation）和目标检测(object detection)最后均加入了一个双分路网络层：scoring和bbox reg， scoring用于对每个标定区域进行打分，判断区域内是否存在感兴趣的目标，bbox reg 采用回归对标定框进行微调并输出框偏差。对于重叠的标定框，文中采用IoU（intersaction on unified）的值是否大于固定阈值来决定是否去除重叠的框。

文献6. 关于基于图论的图像分割：《Efficient Graph-Based Image Segmentation》，2004年发表，引用格式：Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(59):167-181.

总结：在本文中作者主要提出了用图G={V,E}的表示方法来对存储一幅图像，其中V表示顶点，对于一幅图像其表示所有像素，E表示每个像素和周围像素所构成的边，在该方法之前有用最小生成树进行图像分割的方法，但其缺点是阈值的选取不能避免灰度斜坡变化和具有高噪声区域时多带来的误差，为此文中提出了两个概念：过精细和过粗糙，为了使得分割是太精细和不是太粗糙，文中提出了一种新的分割方法，新分割方法需要利用到分割区域的域内差，分割区域之间的域间差，以及判断边缘的一种距离度量。

在编程中遇到的问题是：生成最小生成树耗时巨大，到底是应该首先将整幅图像首先生成最小生成树，还是先执行算法前3步然后对分割出来的区域进行最小生成树生成。

文献7. 关于非极大值抑制算法：《Efficient Non-Maximum Suppression》，2006年发表，Pattern Recognition, 2006. ICPR 2006. 18th International Conference on

主要讲了所求的一维或二维区域在存在重合时如何从重选取最大的置信度的区域，并且如何提高计算速度，在图像目标识别中，通常用IoU来作为目标区域与标定框之间的差别，IoU越大的越有可能作为目标标定的区域，该算法作为selective search和bounding box regression的基础，现在用于多篇CPVR 文章。

文献8. 采用selective search进行图像分割和目标识别的文献《Segmentation as Selective Search for Object Recognition》，文章出自2011年ICCV会议上。该文献首先指出目前的图像分割方法基本是使用穷举法，这种方法的缺点是耗时而且效果并不好，文中提出的selective search方法基于以下两点考虑：首先是不能产生建议区域的目标不含被识别；第二，形状和外貌以及目标周围的背景信息对于识别目标具有重要作用。该文算法是类别独立的，算法与分类类别无关，不用考虑图像中的目标是什么，文中的算法在Pascal VOC2007的测试集中取得了96.7%的结果，每幅图像只需1536个平均区域，该算法使得更有价值的词袋方法在VOC2010数据集上的识别额准确率提高了8.5个百分点，测试数据用了20个种类中的8类。

文献9. 中文自动化学报期刊2016年9月新出的论文《基于卷积神经网络的T波形态分类》。该文将T波从QT数据库中分离出来，采用了8000数据点对：（1）单峰倒置(A)；（2）单峰直立(B)；（3）正负双向(C)；（4）负正双向(D)；（5）低平(E)五种形态的T波进行了分类，首先用CNN进行训练，然后对测试波形进行分类，最终结果可以达到99.1%的准确率，虽然准确率高，但是T波的标定还需要人工手动进行，并没有实现T波标定的自动化，所以仅仅是采用CNN实现了一个分类问题，并没有什么大的创新点。可以用在自己以后在采用神经网络算法自动提取出来P ,R ,T三种波形后的波形分类上面，但问题的关键首先是能精确地提取出P,R,T三种波的起始，波峰，和终止点。

文献10. 中文自动化学报期刊2016年9月新出的论文《基于卷积神经网络的T波形态分类》。该文将T波从QT数据库中分离出来，采用了8000数据点对（训练集和测试集总共8000个，两者之间没有重叠）：（1）单峰倒置(A)；（2）单峰直立(B)；（3）正负双向(C)；（4）负正双向(D)；（5）低平(E)五种形态的T波进行了分类，首先用CNN进行训练，然后对测试波形进行分类，最终结果可以达到99.1%的准确率，虽然准确率高，但是T波的标定还需要人工手动进行，并没有实现T波标定的自动化，所以仅仅是采用CNN实现了一个分类问题，并没有什么大的创新点。可以用在自己以后在采用神经网络算法自动提取出来P ,R ,T三种波形后的波形分类上面，但问题的关键首先是能精确地提取出P,R,T三种波的起始，波峰，和终止点。

文献11.最早出现的R-CNN文献，全称Regions with CNN features，引用格式：Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2014:580-587.

总结：在本文中，作者提出了一种基于建议区域的同时采用CNN的提取特征的方法对图像目标进行检测和识别。以往的方法采用的是复杂的组合系统，这种系统既采用了低层次的图像特征，又用到了高层次的背景信息。主要贡献有两个：1. 采用大容量的CNN网络对从上而下的建议区域进行分割，从而进行定位和目标分割；2. 当标记的数据很少时采用有监督的预训练来提高参数结果的准确率，然后将网络采用特殊区域方法的微调，最后得到一个很好的效果提升。

深度学习文献总结

本文相较之前的基于HOG和DPM的目标检测算法有很大提升，同时用到了greedy non-maximum suppression(贪婪非最大抑制)和selective search的方法来产生类别独立的建议区域（即category-independent region proposals），常用建议区域产生的方法有:objectness, selective research, categoty-independent object proposals, constrained parametric min-cuts(CPMC), multi-scale combinatorial grouping, Ciresan等。

文中算法主要由三个模块组成：第一模块是产生种类独立的建议区域；第二模块是一个大容量的卷积神经网络用于从每一个区域提取固定长度的特征；第三个模块是采用一组特殊的线性SVM分类器对区域内的目标进行辨识（分类）。

文献12.《Efficient Non-Maximum Suppression》，讲的是非最大值抑制算法，常用去除图像检测中的冗余检测框，有1D，2D和多维算法，下面是从博客上摘录下的该算法介绍：

以上完成了SUSAN检测边缘的功能，或许你已经想到了怎么用SUSAN算子来检测角点了。通过上面对a、b、c、d、e等几个圆形模板的USAN值的分析，当模板的中心位于角点处时，USAN的值最小。下面简单叙述下利用SUSAN算子检测角点的步骤：

1）利用圆形模板遍历图像，计算每点处的USAN值

2）设置一阈值g，一般取值为1/2(Max(n)，也即取值为USAN最大值的一半，进行阈值化，得到角点响应

3）使用非极大值抑制来寻找角点。

通过上面的方式得到的角点，存在很大伪角点。为了去除伪角点，SUSAN算子可以由以下方法实现：①计算USAN区域的重心，然后计算重心和模板中心的距离，如果距离较小则不是正确的角点；②判断USAN区域的重心和模板中心的连线所经过的像素都是否属于USAN区域的像素，如果属于那么这个模板中心的点就是角点。

总结：SUSAN算子是一个原理简单、易于了解的算子。由于其指数基于对周边象素的灰度比较，完全不涉及梯度的运算，因此其抗噪声能力很强，运算量也比较小；同时，SUSAN算子还是一个各向同性的算子；最后，通过控制参数t和g，可以根据具体情况很容易地对不同对比度、不同形状的图像通过设置恰当的t和g进行控制。比如图像的对比度较大，则可选取较大的t值，而图像的对比度较小，则可选取较小的t值。总之，SUSAN算子是一个非常难得的算子，不仅具有很好的边缘检测性能；而且对角点检测也具有很好的效果。

更多信息请参考：

1、SUSAN Low Level Image Processing：http://users.fmrib.ox.ac.uk/~steve/susan/

2、OpenCV的susan角点检测：http://blog.csdn.net/augusdi/article/details/9012555

作者：kezunhai 出处：http://blog.csdn.net/kezunhai 欢迎转载或分享，但请务必声明文章出处。

文献13.

2016年ICIP会议论文《A FACTORIZATION based active model for texture segmentation》,该文主要提出一种基于小型矩阵的能量方程，首先是采用局部谱直方图作为结构特征，然后基于矩阵分解理论建立一个能量函数，和已有的模型不同的是，该文只是选择从目标区域和背景区域一起选择的权重来决定分割曲线的运动轨迹，最后是和最新的主动轮廓模型进行了对比，最后在和返程的和真实世界拍来的图像上进行试验，实验结果表明本文的方法适合优于现有方法。

文献14.

2016年ICIP会议论文《A FACTORIZATION based active model for texture segmentation》,第一作者是:Mingqi Gao该文主要提出一种基于小型矩阵的能量方程，首先是采用局部谱直方图作为结构特征，然后基于矩阵分解理论建立一个能量函数，和已有的模型不同的是，该文只是选择从目标区域和背景区域一起选择的权重来决定分割曲线的运动轨迹，最后是和最新的主动轮廓模型进行了对比，最后在和返程的和真实世界拍来的图像上进行试验，实验结果表明本文的方法适合优于现有方法。

文献15.

2016年ICIP会议论文《CNN based region proposals for efficient object detection》,第一作者是: Jawadul H.Bappy. 加州大学。本文主要介绍了一种采用两个CNN用来进行图像目标识别的方法，第一个CNN用来产生建议区域，通过采用5层CNN来生成抽象图像，然后在抽象图像上进行目标区域分割，最后将分割区域直接输入到第二个CNN中，第二个CNN主要用于分类，有5层卷积，最后再加上两层全连接层，总共7层，全连接层后面接的是一组SVM二值分类器，SVM二值分类器的训练采用的是真实的区域框为正值，而其他的并不都是负值，只有IoU小于0.3的才认为是复制，处于中间的没说是正值还是负值，但是在validate是却是IoU大于0.5的全部是正值，其他全部是负值，这种做法值得借鉴，另外本文的难点我觉得还是介绍太少，就是建议区域的产生，工作不够扎实，其实建议区域的产生才是最重要的，后面的分类方面的文献和工作已有很多，没有什么新意。不过采用经过5层卷积后的抽象图像进行分割是一种可以尝试的新方法。

文献16.

2016年ICIP会议论文《A Novel cnn-basd match kernel for image retrieval》,第一Dan zhu，指导教师是：章毓晋。是有关采用CNN的图像检索方法。

二值图像连通域的标定算法专题研究，有关这个研究有好多篇文献。autoencoder是一种无监督的学习算法，它利用反向传播算法，让目标值等于输入值，如下图所示，常用于降维和稀疏表示。

深度学习文献总结