1.符号约束

Deeplearning.ai课程笔记(三)–- 深层神经网络

  • 网络层数 :记为L,等于隐藏层加输出层数的和。
  • 节点数 :采用n[l]n^{[l]}表示第l层的节点/单元数。
  • **函数 :采用a[l]=g[l](z[l])a^{[l]}=g^{[l]}(z^{[l]})表示第l层的**函数值。
  • 参数表示 :采用W[l]W^{[l]}表示第l层参数,及求Z[l]Z^{[l]}时的权重矩阵,采用b[i]b^{[i]}表示第i层参数bb
  • 样本:用右上角圆括号表示样本i,如:x(i)x^{(i)},则:a[i](j)a^{[i](j)}表示第j个样本计算至网络第i层后的值,y^(i)\hat{y}^{(i)}表示网络最终计算出的第i个样本的预测值。
  • 节点/单元:采用右下角字母表示单元,如:ak[l]a^{[l]}_k表示第l层第k个单元**后的输出。

2.前向传播

对于某层隐藏层l,Z[l]=W[l]a[l1]+b[l]Z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}a[l]=g[l](Z[l])a^{[l]}=g^{[l]}(Z^{[l]})。  
Deeplearning.ai课程笔记(三)–- 深层神经网络

3.反向传播

{dA[l]=ddA[l]dZ[l+1]=W[l+1]TdZ[l+1]dZ[l]=ddZ[l]dA[l]=W[l+1]TdZ[l+1]g[l](Z[l])dW[l]=ddW[l]dZ[l]=1mdZ[l]A[l1]Tdb[l]=ddb[l]dZ[l]=np.sum(dZ[l],axis=1,keepdims=true)\begin{cases} dA^{[l]}=\frac{d}{dA^{[l]}}dZ^{[l+1]}=W^{[l+1]T}dZ^{[l+1]}\\ dZ^{[l]}=\frac{d}{dZ^{[l]}}dA^{[l]}=W^{[l+1]T}dZ^{[l+1]}*g'^{[l]}(Z^{[l]})\\ dW^{[l]}=\frac{d}{dW^{[l]}}dZ^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}\\ db^{[l]}=\frac{d}{db^{[l]}}dZ^{[l]}=np.sum(dZ^{[l]},axis=1,keepdims=true) \end{cases}

4.参数与超参数

训练神经网络时通过梯度下降寻找最合适的参数W与b,除去参数W与b以外,还有其他参数需要输入学习算法,其中一些参数值的设置将决定最后得到的参数W和b的值,这种参数被称为超参数。
  如:学习率α\alpha、循环次数、隐层的数量L、隐藏单元数n[1],n[2],...n^{[1]},n^{[2]},...、正则化参数、mini batch大小、momentum等均为超参数,超参数的设定通常根据经验过程并进行多次尝试。

相关文章:

  • 2021-08-25
  • 2021-09-03
  • 2021-09-25
  • 2021-12-04
  • 2021-12-04
  • 2021-04-17
  • 2021-12-23
猜你喜欢
  • 2021-08-11
  • 2021-04-22
  • 2021-06-19
  • 2021-12-04
  • 2021-09-24
  • 2021-12-04
  • 2021-08-28
相关资源
相似解决方案