Deep learning I - III Shallow Neural Network - Backpropagation intuition反向传播算法启发

Backpropagation intuition

简单的2层浅神经网络，第一层的activation function为 $t a n h (z)$ ，第二层的activation function为 $s i g m o i d (z)$ 。
神经网络architecture如下图：
Deep learning I - III Shallow Neural Network - Backpropagation intuition反向传播算法启发
使用计算流图(computational graphs)表示如下图：

在下面的公式中, $\log a^{[2]} m e a n s \ln a^{[2]}$ ； $d a^{[2]}, d z^{[2]}$ 等等是标记相应的导数的符号；并且，下面的公式是单个instance的，并没有矩阵化。

\begin{matrix} (1.1) & L (a^{[2]}, y) = - y \log a^{[2]} - (1 - y) \log (1 - a^{[2]}) \end{matrix}

\begin{matrix} (1.2) & d a_{[1 \times 1]}^{[2]} = \frac{d}{d a^{[2]}} L (a^{[2]}, y) = - \frac{y}{a^{[2]}} + \frac{1 - y}{1 - a^{[2]}} \end{matrix}

\begin{matrix} (1.3) & g (z^{[2]}) = s i g m o i d (z^{[2]}) = a^{[2]} \end{matrix}

\begin{matrix} (1.4) & \begin{aligned} d z_{[1 \times 1]}^{[2]} & = \frac{d}{d z^{[2]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \\ = d a^{[2]} \cdot g^{'} (z^{[2]}) \\ = (- \frac{y}{a^{[2]}} + \frac{1 - y}{1 - a^{[2]}}) \cdot (g (z^{[2]}) (1 - g (z^{[2]}))) \\ = (- \frac{y}{a^{[2]}} + \frac{1 - y}{1 - a^{[2]}}) \cdot a^{[2]} \cdot (1 - a^{[2]}) \\ = a^{[2]} - y \end{aligned} \end{matrix}

\begin{matrix} (1.5) & \begin{aligned} d W_{[1 \times 4]}^{[2]} & = \frac{d}{d W^{[2]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d W^{[2]}} z^{[2]} \\ = d z^{[2]} \cdot x \\ = d z_{[1 \times 1]}^{[2]} (a_{[4 \times 1]}^{[1]})^{T} \end{aligned} \end{matrix}

\begin{matrix} (1.6) & \begin{aligned} d b_{[1 \times 1]}^{[2]} & = \frac{d}{d b^{[2]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d b^{[2]}} z^{[2]} \\ = d z_{[1 \times 1]}^{[2]} \end{aligned} \end{matrix}

\begin{matrix} (1.7) & \begin{aligned} d a_{[4 \times 1]}^{[1]} & = \frac{d}{d a^{[1]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d a^{[1]}} z^{[2]} \\ = d z^{[2]} \cdot W^{[2]} \\ = (W_{[1 \times 4]}^{[2]})^{T} d z_{[1 \times 1]}^{[2]} \end{aligned} \end{matrix}

\begin{matrix} (1.8) & g (z^{[1]}) = \tanh (z^{[1]}) = a^{[1]} \end{matrix}

\begin{matrix} (1.9) & \begin{aligned} d z_{[4 \times 1]}^{[1]} & = \frac{d}{d z^{[1]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d a^{[1]}} z^{[2]} \cdot \frac{d}{d z^{[1]}} a^{[1]} \\ = d a^{[1]} \cdot g^{'} (z^{[1]}) \\ = (W_{[1 \times 4]}^{[2]})^{T} d z_{[1 \times 1]}^{[2]} * g^{'} (z^{[1]})_{[4 \times 1]} \end{aligned} \end{matrix}

\begin{matrix} (1.10) & \begin{aligned} d W_{[4 \times 3]}^{[1]} & = \frac{d}{d W^{[1]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d a^{[1]}} z^{[2]} \cdot \frac{d}{d z^{[1]}} a^{[1]} \cdot \frac{d}{d W^{[1]}} z^{[1]} \\ = d z^{[1]} \cdot x \\ = d z_{[4 \times 1]}^{[1]} (a_{[3 \times 1]}^{[0]})^{T} \end{aligned} \end{matrix}

\begin{matrix} (1.11) & \begin{aligned} d b_{[4 \times 1]}^{[1]} & = \frac{d}{d W^{[1]}} L (a^{[2]}, y) \\ = \frac{d}{d a^{[2]}} L (a^{[2]}, y) \cdot \frac{d}{d z^{[2]}} a^{[2]} \cdot \frac{d}{d a^{[1]}} z^{[2]} \cdot \frac{d}{d z^{[1]}} a^{[1]} \cdot \frac{d}{d b^{[1]}} z^{[1]} \\ = d z_{[4 \times 1]}^{[1]} \end{aligned} \end{matrix}

下面是vectorization后的反向传播算法公式：

\begin{matrix} (2.1) & L (A^{[2]}, Y) = \frac{1}{m} \sum_{i = 1}^{m} - y^{(i)} \log A^{[2] (i)} - (1 - y^{(i)}) \log (1 - A^{[2] (i)}) \end{matrix}

\begin{matrix} (2.2) & \begin{aligned} d A_{[1 \times m]}^{[2]} & = [(- \frac{Y^{(1)}}{A^{[2] (1)}} + \frac{1 - Y^{(1)}}{1 - A^{[2] (1)}}), \dots, (- \frac{Y^{(m)}}{A^{[2] (m)}} + \frac{1 - Y^{(m)}}{1 - A^{[2] (m)}})] \end{aligned} \end{matrix}

\begin{matrix} (2.3) & \begin{aligned} d Z_{[1 \times m]}^{[2]} & = [(- \frac{Y^{(1)}}{A^{[2] (1)}} + \frac{1 - Y^{(1)}}{1 - A^{[2] (1)}}), \dots, (- \frac{Y^{(m)}}{A^{[2] (m)}} + \frac{1 - Y^{(m)}}{1 - A^{[2] (m)}})] * [A^{[2] (1)} (1 - A^{[2] (1)}), \dots, A^{[2] (m)} (1 - A^{[2] (m)})] \\ = [(A^{[2] (1)} - Y^{(1)}), \dots, (A^{[2] (m)} - Y^{(m)})] \\ = A^{[2]} - Y \end{aligned} \end{matrix}

\begin{matrix} (2.4) & d W_{[1 \times 4]}^{[2]} = \frac{1}{m} d Z_{[1 \times m]}^{[2]} (A_{[4 \times m]}^{[1]})^{T} \end{matrix}

\begin{matrix} (2.5) & d b_{[1 \times 1]}^{[2]} = \frac{1}{m} n p . s u m (d Z^{[2]}, a x i s = 1, k e e p d i m s = T r u e) \end{matrix}

d Z_{[4 \times m]}^{[1]} = (W_{[1 \times 4]}^{[2]})^{T} d Z_{[1 \times m]}^{[2]} * g^{[1]}^{'} (Z^{[1]})_{[4 \times m]}

\begin{matrix} (2.6) & d W_{[4 \times 3]}^{[1]} = \frac{1}{m} d Z_{[4 \times m]}^{[1]} (A_{[3 \times m]}^{[0]})^{T} \end{matrix}

\begin{matrix} (2.7) & d b_{[4 \times 1]}^{[1]} = \frac{1}{m} s p . s u m (d Z_{[4 \times m]}^{[1]}, a x i s = 1, k e e p d i m s = T r u e) \end{matrix}

总结

Deep learning I - III Shallow Neural Network - Backpropagation intuition反向传播算法启发

Backpropagation intuition

在下面的公式中,loga[2] means lna[2]log⁡a[2] means ln⁡a[2]；da[2],dz[2]da[2],dz[2]等等是标记相应的导数的符号；并且，下面的公式是单个instance的，并没有矩阵化。

下面是vectorization后的反向传播算法公式：

总结

在下面的公式中, $\log a^{[2]} m e a n s \ln a^{[2]}$ ； $d a^{[2]}, d z^{[2]}$ 等等是标记相应的导数的符号；并且，下面的公式是单个instance的，并没有矩阵化。