Keras vs Pytorch NN 代码小差异，需要澄清答案

【问题标题】：Keras vs Pytorch NN code small differences, need clarificationKeras vs Pytorch NN 代码小差异，需要澄清
【发布时间】：2020-05-31 07:43:21
【问题描述】：

我有同一个神经网络的 Keras 和 Pytorch 代码。一些线路在两者之间切换。我想知道为什么 Pytorch 版本的最大池化出现在批量标准化和卷轴激活之前。在 Keras 中，它位于这两行之后。对于扁平化，我也对 Pytorch 如何使用 64 * 7 * 7 感到困惑（7 是从哪里来的？）。

这是 Keras 版本的浅网 Alex 网：

def shallownet(nb_classes):
    global img_size
    model = Sequential()
    model.add(Conv2D(64, (5, 5), input_shape=img_size, data_format='channels_first'))
    model.add(BatchNormalization(axis=1))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='same', data_format='channels_first'))

    model.add(Conv2D(64, (5, 5), padding='same', data_format='channels_first'))
    model.add(BatchNormalization(axis=1))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='same', data_format='channels_first'))

    model.add(Flatten())
    model.add(Dense(384))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
    model.add(Dense(192))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
    model.add(Dense(nb_classes, activation='softmax'))
    return model

和 Pytorch 版本：

class AlexNet(nn.Module):

    def __init__(self, num_classes=10):
        super(AlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=5, padding=2,
                      bias=False),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 64, kernel_size=5, padding=2, bias=False),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
        )
        self.classifier = nn.Sequential(
            nn.Linear(64 * 7 * 7, 384, bias=False),
            nn.BatchNorm1d(384),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(384, 192, bias=False),
            nn.BatchNorm1d(192),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(192, num_classes)
        )
        self.regime = {
            0: {'optimizer': 'SGD', 'lr': 1e-3,
                'weight_decay': 5e-4, 'momentum': 0.9},
            60: {'lr': 1e-2},
            120: {'lr': 1e-3},
            180: {'lr': 1e-4}
        }

    def forward(self, x):
        x = self.features(x)
        x = x.view(-1, 64 * 7 * 7)
        x = self.classifier(x)
        return F.log_softmax(x)


def cifar10_shallow(**kwargs):
    num_classes = getattr(kwargs, 'num_classes', 10)
    return AlexNet(num_classes)


def cifar100_shallow(**kwargs):
    num_classes = getattr(kwargs, 'num_classes', 100)
    return AlexNet(num_classes)

【问题讨论】：

标签： python tensorflow keras pytorch

【解决方案1】：

最大池通过选取某个值池的最大值来对数据进行下采样。数据之间的比较不会受到批归一化和 ReLU 激活的影响，因为两者都是一对一的单调递增函数。

relu(x) = max(0, x)
bn(x) = (x - mu) / sigma

因此，max pool 是在这两层之后还是之前并不重要（之前有它可能更有效）。

关于展平，我相信 7 是Flatten() 之前层的空间维度，即H = W = 7。因此，值的总数等于空间维度乘以通道大小，即64 * 7 * 7。

【讨论】：