论文关键点分析：3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation

这篇文章的主体内容与 2D-Unet 中的基本相同，所以在下面的文章中，仅仅对论文中两点部分进行分析，其余部分省略。

1. 两种设置方式

这种方法的两种设置，半自动设置与全自动设置，或者我们也可以认为是两种应用场景，如下图所示
论文关键点分析：3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
第一个应用场景是对原始的数据进行少量的标注，之后使用少量的标注进行训练，然后再应用训练好的 3D Unet 进行预测。

第二个应用场景是假设已经存在训练好的模型，直接应用这样的模型进行预测。

2. 提出这种 3D Unet 的意义在于什么

通过标注 2D 图像，进而生成 3D 图像标签的方法往往效率比较地下，因为临近的片之间几乎具有相同的信息；另一点是进行数据预处理的时候比较麻烦，基本上要一张一张的进行数据预处理。

3. maxpooling 的作用

如果网络只有一个 maxpooling 的话，是不能够获得多分辨率的结果的。

4. 为什么可以使用弹性形变进行数据增强

它利用了这样一个事实：适当地应用刚性转换和轻微的弹性变形仍然可以产生生物学上可信的图像。作者在论文中进行实时的数据增强，也就是说理论上每一轮的数据都是不一样的。

5. 对网络结构和损失函数的改进

5.1 卷积核的个数

为了避免瓶颈，在上采样和下采样之前都将通道数增加为原来的二倍，具体如下图所示

论文关键点分析：3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
左侧的红色虚线方框之内，在进行 maxpooling 之前将通道数从 64 变为了 128，及文中所说的 double；右侧的红色虚线内，在进行转置卷积之前，将通道数从 256 变为了 512。实际上这种思想来源于 inception V3。

5.2 BN层

在每一个 relu **函数之前使用BN层，加快模型的收敛速度，通过实验发现也可以提升模型的效果。

5.3 损失函数

使用加权的 softmax 损失函数，将没有标签的部分置为 0，让模型只从有有标签的部分学习。