1.符号约束

-
网络层数 :记为L,等于隐藏层加输出层数的和。
-
节点数 :采用n[l]表示第l层的节点/单元数。
-
**函数 :采用a[l]=g[l](z[l])表示第l层的**函数值。
-
参数表示 :采用W[l]表示第l层参数,及求Z[l]时的权重矩阵,采用b[i]表示第i层参数b。
-
样本:用右上角圆括号表示样本i,如:x(i),则:a[i](j)表示第j个样本计算至网络第i层后的值,y^(i)表示网络最终计算出的第i个样本的预测值。
-
节点/单元:采用右下角字母表示单元,如:ak[l]表示第l层第k个单元**后的输出。
2.前向传播
对于某层隐藏层l,Z[l]=W[l]a[l−1]+b[l],a[l]=g[l](Z[l])。

3.反向传播
⎩⎪⎪⎪⎨⎪⎪⎪⎧dA[l]=dA[l]ddZ[l+1]=W[l+1]TdZ[l+1]dZ[l]=dZ[l]ddA[l]=W[l+1]TdZ[l+1]∗g′[l](Z[l])dW[l]=dW[l]ddZ[l]=m1dZ[l]A[l−1]Tdb[l]=db[l]ddZ[l]=np.sum(dZ[l],axis=1,keepdims=true)
4.参数与超参数
训练神经网络时通过梯度下降寻找最合适的参数W与b,除去参数W与b以外,还有其他参数需要输入学习算法,其中一些参数值的设置将决定最后得到的参数W和b的值,这种参数被称为超参数。
如:学习率α、循环次数、隐层的数量L、隐藏单元数n[1],n[2],...、正则化参数、mini batch大小、momentum等均为超参数,超参数的设定通常根据经验过程并进行多次尝试。