从头开始的 NN 适用于简单的问题，但不适用于 MNIST 数字答案

【问题标题】：NN from scratch works with simple problems but not with MNIST numbers从头开始的 NN 适用于简单的问题，但不适用于 MNIST 数字
【发布时间】：2020-11-27 07:47:32
【问题描述】：

我一直在研究一个具有一个隐藏层的神经网络，三层中的每一层都有灵活数量的节点。代码如下：

import time
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import mnist

class_names = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

class NeuralNetwork():

    correct = 0
    num_predictions = 10
    epochs = 100
    sizeOfEpoch = 5000
    Lambda = 10
    learningRate = 0.00001

    def __init__(self, sizes):
        self.dimensions = sizes

        self.x = np.arange(1,self.epochs+1)
        self.y = np.empty(self.epochs)

        self.secondLayerNeurons = np.empty(sizes[1])
        self.outputNeurons = np.empty(sizes[2])

        self.firstLayerWeights = np.random.rand(sizes[1], sizes[0])
        self.secondLayerWeights = np.random.rand(sizes[2], sizes[1])
        self.firstLayerBiases = np.random.rand(sizes[1])
        self.secondLayerBiases = np.random.rand(sizes[2])

        self.firstLayerWeightsSummations = np.zeros([sizes[1], sizes[0]])
        self.secondLayerWeightsSummations = np.zeros([sizes[2], sizes[1]])
        self.firstLayerBiasesSummations = np.zeros([sizes[1]])
        self.secondLayerBiasesSummations = np.zeros([sizes[2]])

        self.hiddenLayerErrors = np.empty(sizes[1])
        self.outputLayerErrors = np.empty(sizes[2])

    def sigmoid(self, x):
        return 1/(1+np.exp(-x))

    def sigmoidDerivative(self, x):
        return np.multiply(x,(1-x))

    def forwardProp(self, inputs):
        for i in range (self.dimensions[1]):
            self.secondLayerNeurons[i] = self.sigmoid(np.dot(self.firstLayerWeights[i], inputs)+self.firstLayerBiases[i])
        for i in range (self.dimensions[2]):
            self.outputNeurons[i] = self.sigmoid(np.dot(self.secondLayerWeights[i], self.secondLayerNeurons)+self.secondLayerBiases[i])

    def backProp(self, inputs, correct_output):
        self.outputLayerErrors = np.subtract(self.outputNeurons, correct_output)
        self.hiddenLayerErrors = np.multiply(np.dot(self.secondLayerWeights.T, self.outputLayerErrors), self.sigmoidDerivative(self.secondLayerNeurons))

        for i in range (self.dimensions[2]):
            for j in range (self.dimensions[1]):
                if j==0:
                    self.secondLayerBiasesSummations[i] += self.outputLayerErrors[i]
                self.secondLayerWeightsSummations[i][j] += self.outputLayerErrors[i]*self.secondLayerNeurons[j]
        for i in range (self.dimensions[1]):
            for j in range (self.dimensions[0]):
                if j==0:
                    self.firstLayerBiasesSummations[i] += self.hiddenLayerErrors[i]
                self.firstLayerWeightsSummations[i][j] += self.hiddenLayerErrors[i]*inputs[j]

    def train(self, trainImages, trainLabels):
        size = str(self.sizeOfEpoch)
        greatestError = 0.0
        start_time2 = time.time()

        for m in range (self.sizeOfEpoch):
            correct_output = np.zeros([self.dimensions[2]])
            correct_output[int(class_names[trainLabels[m]])] = 1.0

            self.forwardProp(trainImages[m].flatten())
            self.backProp(trainImages[m].flatten(), correct_output)

            if np.argmax(self.outputNeurons) == int(trainLabels[m]):
                self.correct+=1

            if m%200 == 0:
                error = np.amax(np.absolute(self.outputLayerErrors))
                if error > greatestError:
                    greatestError = error
                accuracy = str(int((self.correct/(m+1))*100)) + '%'
                percent = str(int((m/self.sizeOfEpoch)*100)) + '%'
                print ("Progress: " + percent + " -- Accuracy: " + accuracy + " -- Error: " + str(greatestError), end="\r")
        self.change()

        time2 = str(round((time.time() - start_time2), 2))
        print (size + '/' + size + " -- " + time2 + "s" + " -- Accuracy: " + accuracy + " -- Error: " + str(greatestError), end="\r")
        return greatestError

    def change(self):
        for i in range (self.dimensions[2]):
            for j in range (self.dimensions[1]):
                if j == 0:
                    self.secondLayerBiases[i] -= self.learningRate*self.secondLayerBiasesSummations[i]
                self.secondLayerWeights[i][j] -= self.learningRate*(self.secondLayerWeightsSummations[i][j]+self.Lambda*self.secondLayerWeights[i][j])
        for i in range (self.dimensions[1]):
            for j in range (self.dimensions[0]):
                if j == 0:
                    self.firstLayerBiases[i] -= self.learningRate*self.firstLayerBiasesSummations[i]
                self.firstLayerWeights[i][j] -= self.learningRate*(self.firstLayerWeightsSummations[i][j]+self.Lambda*self.firstLayerWeights[i][j])

        self.firstLayerSummations = np.zeros([self.dimensions[1], self.dimensions[0]])
        self.secondLayerSummations = np.zeros([self.dimensions[2], self.dimensions[1]])
        self.firstLayerBiasesSummations = np.zeros(self.dimensions[1])
        self.secondLayerBiasesSummations = np.zeros(self.dimensions[2])
        self.correct = 0
            
    def predict(self, testImage):
        secondLayerAnsNodes = np.empty([self.dimensions[1]])
        outputAns = np.empty([self.dimensions[2]])
        for i in range (self.dimensions[1]):
            secondLayerAnsNodes[i] = self.sigmoid(np.dot(self.firstLayerWeights[i], testImage)+self.firstLayerBiases[i])
        for i in range (self.dimensions[2]):
            outputAns[i] = self.sigmoid(np.dot(self.secondLayerWeights[i], secondLayerAnsNodes)+self.secondLayerBiases[i])
        return np.argmax(outputAns)

if __name__ == "__main__":

    (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
    train_images = train_images/255.0
    test_images = test_images/255.0

    neural_network = NeuralNetwork([784, 16, 10])

    start_time = time.time()
    for i in range (neural_network.epochs):
        print ("\nEpoch", str(i+1) + "/" + str(neural_network.epochs))
        neural_network.y[i]=neural_network.train(train_images, train_labels)
    time = time.time() - start_time

    plt.plot(neural_network.x, neural_network.y, 'b')
    plt.ylabel('Error Change')
    plt.xlabel('Epochs')
    plt.show()

    print("\n\n\nTotal Time Used")
    if time/60 < 60:
        print("Minutes: %s" % round((time/60),2))
    else:
        print("Seconds: %s" % round(time,2))

    for i in range (neural_network.num_predictions):
        prediction = neural_network.predict(test_images[i].flatten())
        plt.grid(False)
        plt.imshow(test_images[i], cmap=plt.cm.binary)
        plt.title("Prediction: " + str(prediction) + " -- Actual: " + class_names[test_labels[i]] + "\n" + str(i+1) + "/" + str(neural_network.num_predictions))
        plt.show()

由于某种原因，此代码不适用于更复杂的问题。误差没有得到最小化，准确性保持不变。这个确切的代码适用于 xor 问题和另一个类似的问题。当我尝试给它 MNIST 数字数据集时，它不起作用。唯一不同的是，每一层的节点较多，算法是一样的。

这可能是什么问题？

这是运行 20 个 epoch 后的图表，学习率为 0.000001，lambda 为 10。它显示了每个 epoch 的误差。 y 标签应该说错误，而不是错误更改。 https://i.stack.imgur.com/fLXzz.png

【问题讨论】：

我对你的损失函数感到困惑。你有self.outputLayerErrors = np.subtract(self.outputNeurons, correct_output)。这不是损失函数；它可以是任意负数，因此似乎将其最小化会任意鼓励输出神经元始终收敛于零（因为 0 - correctOutput 是使用此损失函数可以获得的“最小”损失）。对于分类程序，您可以检查交叉熵损失。基本上，您将输出值解释为类概率，并最大化正确类的对数似然性，同时最小化其他类
@Nerdizzle 这不是我的损失函数，这是我的损失函数导数的一部分。该衍生品基于 Andrew Ng 的视频，链接为youtube.com/…，时间为 7:52
我明白了，所以outputLayerErrors 并不是真正的输出层错误；它们实际上是交叉熵损失 w.r.t 的梯度。输出层logits。有了这种理解，我检查了你的代码，看起来还不错。我建议调整学习率（给定任务的学习率太高总是会使 mlp 发散）。尝试不同的数量级（例如 0.0001、0.00001 和 0.000001）。我也会尝试增加隐藏节点的数量。 10似乎很少。我还将尝试调整超参数，看看我能做什么。
@Nerdizzle 非常感谢您实际查看我的代码，我将尝试调整一些常量，看看会发生什么！我添加了一些代码来绘制输出错误，一旦完成训练，我将发布它
我已经完成了我的实验。我整天在后台运行它们。请参阅下面我发布的答案。

标签： python machine-learning deep-learning neural-network regression

【解决方案1】：

您的实现在技术上没有任何问题。但是，有几件事需要注意，所有这些都会对您所看到的性能产生重大影响。这是一个很长的答案，但每个部分都反映了我对您的代码所做的重要更改，以使其按预期工作，因此请仔细阅读。

首先，您不应该在 (0, 1) 中初始化您的权重，这是 np.random.randn 默认所做的。具体来说，如果您要选择均匀的随机权重，则均匀分布应以零为中心。例如，选择 (-1, 1) 或 (-.1, .1) 范围内的随机数。否则，您的 MLP 会立即出现偏差；许多隐藏层神经元将通过 sigmoid 激活立即映射到接近 1。毕竟，sigmoid 激活以零为中心（沿 x 轴），因此您的默认输入也应该如此。这个问题可以很容易地阻止您的 MLP 完全收敛（事实上，在您的情况下确实如此）。有比从均匀随机分布中采样更好的权重初始化方法，但这并不是说如果处理得当，这种方法就行不通。

其次，您可能应该标准化图像数据。神经网络对 0 到 255 之间的输入效果不佳，这是默认情况下从 keras 导出图像数据的方式。您可以通过将每个输入特征除以 255 来解决此问题。原因是 sigmoid 曲线在高幅度子域的导数非常小。换句话说，当 x 非常大或非常小（非常负）时，sigmoid(x) w.r.t x 的导数非常接近于零。当您将某些权重乘以非常大的值（例如 255）时，您很可能会立即进入 S 型曲线的这个高数值域。这不一定会阻止你的网络收敛，但它肯定会在一开始就减慢它，因为小的导数会导致小的梯度，进而导致小的权重更新。您可以提高学习率，但这可能会导致神经网络在离开 sigmoid 曲线的低导数区域时越步（并可能发散）。同样，我已经在您的特定程序中测试（并修复）了这个问题，它确实产生了显着的差异（最终准确度在 0.8 左右而不是 0.6 左右）。

接下来，您计算“错误”的方式有点奇怪。它计算整个时期的最大误差并打印出来。一个时期的最大误差几乎不是有用的误差度量；即使是一个设计良好、训练有素的深度卷积神经网络，有时也会在一个时期内的至少一个数据点上表现不佳。您的准确度测量可能足以衡量您的模型收敛程度。但是，我还通过简单地调整您当前的错误计算来添加“平均错误”。由于您使用的是交叉熵损失（至少，考虑到您计算梯度的方法，这是正确的），我建议编写一个 实际上 计算交叉熵损失（负对数似然之和）的函数在你的情况下）。请记住，在解释这种损失时，sigmoid 上的负对数似然限制在 (0, infinity) 内，因此交叉熵损失也是如此。

当然，另一个问题可能是学习率。事实上，大多数人会认为学习率是最重要的调整超参数。我最终使用了0.00001，尽管我没有做太多的网格搜索。

接下来，您将使用完整的批量学习。这意味着您计算每个数据点的梯度总和，然后更新一次权重。换句话说，每个 epoch 只执行一次权重更新。如果是这样的话，你将不得不做很多 epochs 才能获得不错的结果。如果你有时间和计算资源，那可能没问题。但是，如果您不这样做，您可能会考虑使用小批量。至少与在线/随机学习相比，小批量对样本顺序仍然相当稳健（尽管理论上您仍然应该对每个时期的数据进行洗牌）。它涉及将您的完整数据集划分为一些预定义大小的“批次”。对于每个批次，您计算批次中每个数据点的模型梯度总和。然后，您进行权重更新（通过调用change()）。一旦你检查了每一批次，这就构成了一个时期。我使用了 minibatch，批量大小为 1,000。

最后（我想说的是最重要的一点，但我提到的其他事情也阻碍了收敛），您没有在所有训练数据上进行训练 (8,000 / 60,000)；您没有训练足够多的 epoch（5 个可能还不够，尤其是当您只训练一小部分数据时）；并且您的模型可能太简单（没有足够的隐藏层节点）。然而，最重要的问题是，实现并不总是在适当的时候使用向量化操作，因此在具有足够数量的 epoch 和模型复杂度的所有训练数据上实际训练太慢了。

我更新了您的实现（最值得注意的是backprop() 和change()）以尽可能使用numpy 的向量化操作。这将实施速度提高了几个数量级。但是，我认为它根本不会改变代码的语义。我还实施了我在这篇文章中建议的其他更改。在仅仅 20 个 epoch 和隐藏层中只有 32 个隐藏节点之后，我平均获得了大约 85% 的训练准确度（尽管它随批次变化 +/- 6%）。我没有针对测试集运行它，所以我也没有弄乱正则化参数（我只是将Lambda 设置为零）。这是更新后的代码（为简洁起见，我删除了部分，例如 predict() 函数）：

import numpy as np
from tensorflow.keras.datasets import mnist

class_names = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

class NeuralNetwork():

    correct = 0
    epochs = 20
    Lambda = 0
    learningRate = 0.00001

    def __init__(self, sizes, batchSize):
        self.batchSize = batchSize
        self.dimensions = sizes

        self.secondLayerNeurons = np.empty(sizes[1])
        self.outputNeurons = np.empty(sizes[2])

        # Draw weights and biases from (-1, 1) by multiplying the (0, 1)
        # values by 2 and subtracting 1. There are better ways of doing this,
        # but this works just fine.
        self.firstLayerWeights = np.random.rand(sizes[1], sizes[0]) * 2 - 1
        self.secondLayerWeights = np.random.rand(sizes[2], sizes[1]) * 2 - 1
        self.firstLayerBiases = np.random.rand(sizes[1]) * 2 - 1
        self.secondLayerBiases = np.random.rand(sizes[2]) * 2 - 1

        self.firstLayerWeightsSummations = np.zeros([sizes[1], sizes[0]])
        self.secondLayerWeightsSummations = np.zeros([sizes[2], sizes[1]])
        self.firstLayerBiasesSummations = np.zeros([sizes[1]])
        self.secondLayerBiasesSummations = np.zeros([sizes[2]])

        self.hiddenLayerErrors = np.empty(sizes[1])
        self.outputLayerErrors = np.empty(sizes[2])

    def sigmoid(self, x):
        return 1/(1+np.exp(-x))

    def sigmoidDerivative(self, x):
        return np.multiply(x,(1-x))


    def forwardProp(self, inputs):
        for i in range (self.dimensions[1]):
            self.secondLayerNeurons[i] = self.sigmoid(np.dot(self.firstLayerWeights[i], inputs)+self.firstLayerBiases[i])
        for i in range (self.dimensions[2]):
            self.outputNeurons[i] = self.sigmoid(np.dot(self.secondLayerWeights[i], self.secondLayerNeurons)+self.secondLayerBiases[i])

    def backProp(self, inputs, correct_output):
        self.outputLayerErrors = np.subtract(self.outputNeurons, correct_output)
        self.hiddenLayerErrors = np.multiply(np.dot(self.secondLayerWeights.T, self.outputLayerErrors), self.sigmoidDerivative(self.secondLayerNeurons))

        self.secondLayerBiasesSummations += self.outputLayerErrors
        self.secondLayerWeightsSummations += np.outer(self.outputLayerErrors, self.secondLayerNeurons)

        self.firstLayerBiasesSummations += self.hiddenLayerErrors
        self.firstLayerWeightsSummations += np.outer(self.hiddenLayerErrors, inputs)

    def train(self, trainImages, trainLabels):
        size = str(self.batchSize)
        err_sum = 0.0
        err_count = 0
        avg_err = 0.0

        for m in range (self.batchSize):
            correct_output = np.zeros([self.dimensions[2]])
            correct_output[trainLabels[m]] = 1.0

            self.forwardProp(trainImages[m].flatten())
            self.backProp(trainImages[m].flatten(), correct_output)

            if np.argmax(self.outputNeurons) == int(trainLabels[m]):
                self.correct+=1

            if m%150 == 0:
                error = np.amax(np.absolute(self.outputLayerErrors))
                err_sum += error
                err_count += 1
                avg_err = err_sum / err_count
                accuracy = str(int((self.correct/(m+1))*100)) + '%'
                percent = str(int((m/self.batchSize)*100)) + '%'
                print ("Progress: " + percent + " -- Accuracy: " + accuracy + " -- Error: " + str(avg_err), end="\r")

        self.change()
        print (size + '/' + size + " -- " + " -- Accuracy: " + accuracy + " -- Error: " + str(avg_err), end="\r")
        self.correct = 0

    def change(self):

        self.secondLayerBiases -= self.learningRate * self.secondLayerBiasesSummations
        self.secondLayerWeights -= self.learningRate * self.secondLayerWeightsSummations
        self.firstLayerBiases -= self.learningRate * self.firstLayerBiasesSummations
        self.firstLayerWeights -= self.learningRate * self.firstLayerWeightsSummations

        self.firstLayerSummations = np.zeros([self.dimensions[1], self.dimensions[0]])
        self.secondLayerSummations = np.zeros([self.dimensions[2], self.dimensions[1]])
        self.firstLayerBiasesSummations = np.zeros(self.dimensions[1])
        self.secondLayerBiasesSummations = np.zeros(self.dimensions[2])

if __name__ == "__main__":

    (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
    train_images = train_images / 255 # Normalize image data

    num_using = 60000 # Amount of data points to use. It's fast now, so we may as well use the full 60,000
    bs = 1000 # Batch size. 60,000 is full batch. Consider trying mini-batch
    neural_network = NeuralNetwork([784, 32, 10], bs)

    for i in range (neural_network.epochs):
        print ("\nEpoch", str(i+1) + "/" + str(neural_network.epochs))
        for j in range(int(num_using / bs)):
            print("Batch", str(j+1) + "/" + str(int(60000 / bs)))
            neural_network.train(train_images[int(j * bs):int(j * bs) + bs], train_labels[int(j * bs):int(j * bs) + bs])

对于需要最少努力的进一步改进，我建议尝试更多隐藏节点（甚至可能 128 个），进一步调整学习率和正则化参数，尝试不同的批量大小，并调整 epoch 数。

如果您有任何问题，请告诉我。

【讨论】：

非常感谢您花这么多时间在这上面。这是我的第一个神经网络，你帮了很多忙！我不知道还能从哪里获得帮助，因为我才上高中。顺便说一句，我有没有提到你帮助了我多少？
关于我的实现的几个问题是批量大小的最佳大小范围是多少，如果我添加正则化项，我将如何对变化函数进行矢量化。我担心如果批量太小，梯度下降可能不正确。将来，是否有一种通用的方法来确定我的代码存在什么问题，或者调整每个常量是唯一的方法？再次，非常感谢。
最佳批量大小对问题域（任务、数据集等）以及您使用的其他超参数高度敏感。没有最好的批量大小；您必须尝试使用它才能找到最有效的方法。至于向量化正则化，请记住正则化的目的只是为了鼓励权重具有较小的幅度。你应该可以这样做（L2 正则化）：self.firstLayerWeights -= self.learningRate * (self.firstLayerWeightsSummations + self.Lambda * self.firstLayerWeights)。但是，我没有对此进行测试。
有没有什么方法可以提高准确性和降低成本？我一直在玩常数，但我无法获得比 85% 更好的准确度。有什么我可以添加或更改的吗？这应该是我最后一个问题了，非常感谢您的帮助。
您可能会问自己希望获得什么样的准确度以及为什么您的准确度较低。如果您的模型拟合不足，您可能需要增加模型的复杂性（例如，更多隐藏节点）。然而，这是一个更高的成本。如果它过度拟合，您可以尝试不同的正则化技术。如果您想在相同的模型复杂度下获得更好的结果，您将需要一些专门为图像识别设计的模型约束，例如卷积层。您也可以尝试图像预处理，以低成本获得更好的结果。最终，MLP 只能对图像做这么多。