deeplab v3+尝试和解决

最近一直在鼓捣语义分割，感觉这玩意确实是CV上的高级任务，确实有用。
Deeplab V3+，主要由三部分组成：

backbone
resnet， mobilenet， drn，xception等。然后这儿会引出一个low-level features 和一个output。需注意这里会有一个output-stride的差别，主要在于有没有更多的stride=2的结构。
aspp，空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP)
就是用不同种类的空洞卷积形成特征图，然后降至concatenate起来。
decoder
就是把aspp输出的featuremaps 和 backbone抽取的底层特征，再concatenate起来，让后上采样到原图像的值。做了插值操作。

另，感觉tensorflow的官方版本设计存在一些问题，仅接受513 x 513以及一下的输入，按网络设计而言基本不涉及图像尺寸问题，这个确实不应该发生，所用的pytorch版本就没有这个问题。