GoogLeNet Version1论文笔记

Title: Going deeper with convolutions (2014)
Link

文章目录

Abstract
1 Introduction
2 Related Work
3 Motivation and High Level Considerations
4 Architecture Details
5 GoogLeNet
6 Training Methodology
7 ILSVRC 2014 Classification Challenge Setup and Results
8 ILSVRC 2014 Detection Challenge Setup and Results
9 Conclusions

Abstract

Task: classification and detection
Competition: ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14)
Name: GoogLeNet

1 Introduction

In this paper, we will focus on an efficient deep neural network architecture for computer vision.

2 Related Work

从 LeNet-5 开始，CNN就有标准的结构——堆叠的卷积层（可以加normalization and max- pooling），后面跟着全连接层。改进就是增加层数和尺寸，使用 dropout 克服过拟合问题。

本文启发于：不同尺寸 Gabor filters 的使用，Network-in-Network 方法，object detection 方法 R-CNN。

3 Motivation and High Level Considerations

提高深度神经网络性能最直接的方法是增加网络深度（网络层数）和宽度（每层单元数）。

但有两个缺点：

参数更多，更容易过拟合；
计算资源增加，可能导致资源浪费。

解决这两个问题的主要方式是改变网络架构，从全连接（fully connected）到稀疏连接（sparsely connected）。

但是，在不均匀的稀疏数据结构上计算，今天的计算架构效率不高，它需要更复杂的计算结构。

这带来一个问题，能否有一个充分利用额外稀疏的框架。稀疏矩阵计算的文献表明，将稀疏矩阵聚类为相对密集的子矩阵往往会为稀疏矩阵乘法提供最新的实用性能。

基于以上的思考，文章提出了 Inception 体系结构。

4 Architecture Details

重点（还没完全理解）！

Inception 体系结构的主要思想是：找出卷积视觉网络中最佳局部稀疏结构的近似值，并通过易于使用的密集组件进行覆盖。需要找到最佳的局部构造并在空间上进行重复，采取了逐层构造的方法，也就是左边的版本。

存在的第一个问题，即使是数量有限的5×5卷积，在具有大量过滤器的卷积层的顶部也可能会非常昂贵。尤其时添加了池化层，计算量会更大。

第二种架构：在需求增加很多的地方降维和投影，这基于 embedding 的成功（低维的嵌入也可以包含很多信息），但是压缩信息很难建模。我们还是希望大部分地方保持表示稀疏（sparse），仅在必须将它们汇总时才压缩信号。也就是右边的版本。

GoogLeNet Version1论文笔记

通常来说，Inception network 是由彼此堆叠的上述类型的模块组成的网络，有时会有有最大步距为 2 的最大池化层，以使网格的分辨率减半。考虑到内存效率，可以在网络低层使用卷积层，高层使用上述模型。

它可以显着增加每个阶段的单元数量，而不会导致计算复杂性的急剧增加。

5 GoogLeNet

GoogLeNet 是参加 ILSVRC14 competition 的团队名，是为了向 LeNet 5 network 致敬。GoogLeNet 也指团队提交的 Inception architecture 典型网络。

文章提供了最成功一个网络版本（Table 1）。
GoogLeNet Version1论文笔记

所有的卷积层使用**函数 ReLU
#3×3 reduce 代表 3×3 卷积前 1×1 filters in the reduction layer 的数量
一共 22 层带参数，算上 pooling 层有27层

6 Training Methodology

SGD with Momentum 0.9
fixed learning rate = 4%

由于模型一直在调整，没办法给提供确定的训练方案。

7 ILSVRC 2014 Classification Challenge Setup and Results

图像分类任务，1000个类别。
图像分布：1200,000 training 50,000 validation 100,000 testing
评价指标：

the top-1 accuracy rate：比较预测的第一个类和 ground truth
the top-5 error rate：比较前5个预测的类个 ground truth，5 个里只要有一致的就算正确。

为了提高性能，testing 阶段采取的策略：

分别训练了相同 GoogLeNet model 的7个版本，只有取样的差异，看他们的总体效果。
更极端的裁剪（cropping）方法。
将softmax概率在多个块和所有单个分类器上取平均，以获得最终预测。

8 ILSVRC 2014 Detection Challenge Setup and Results

目标检测任务，在 200 个类别的物体上预测边框。如果 groundtruth 和 bounding box 有 50% 的重叠预测为检测正确
评价指标：mean average precision (mAP)

GoogLeNet 用于检测的方法与 R-CNN 相似，但是使用 Inception 模型作为区域分类器进行了扩充。

策略：

the use of external data：the ILSVRC12 classification data for pre-training a model
ensemble models 组合模型
contextual models 上下文依赖模型

9 Conclusions

Our results seem to yield a solid evidence that approximating the expected optimal sparse structure by readily available dense building blocks is a viable method for improving neural networks for computer vision.

通过堆叠密集构造块来近似预期的最佳稀疏结构，是改善计算机视觉神经网络的可行方法。

优势：在适度增加计算需求的情况下获得了显着的质量提升

虽然没有利用上下文，也没有执行边界框回归，这个网络在目标检测任务中也很有竞争力。

总的来说，转向稀疏架构是可行且有用的想法。