【发布时间】:2020-08-27 10:05:41
【问题描述】:
我最近阅读了 RetinaNet 论文,但我还没有理解一个小细节:
我们有从 FPN (P2,...P7) 获得的多尺度特征图。
然后两个 FCN 头(分类器头和回归器头)对每个特征图进行卷积。
然而,每个特征图都有不同的空间尺度,那么,在所有卷积参数都是固定的情况下,分类器头和回归器头如何保持固定的输出量? (即步幅为 1 的 3x3 过滤器等)。
查看 RetinaNet 的 PyTorch's implementation 的这条线,我看到头部只是卷积每个特征,然后所有特征都以某种方式堆叠(它们之间唯一的共同维度是通道维度,即 256,但在空间上它们是从彼此)。
很想听听它们是如何结合在一起的,我无法理解这一点。
【问题讨论】:
标签: machine-learning deep-learning retinanet