神经网络之全连接层详解

CNN Tomography With Caffe - Full Connected Layer

全连接结构中的符号定义如下图：

神经网络之全连接层详解

Follow Chain Rule, define loss function , so we have:

Here we define

，下面分别介绍这两个偏导项如何计算。

Now we firstly get output layer . As an example, we take cross entropy as loss function, with SoftMax as output function.

继续由有：

还是 Chain Rule, 这个chain rule决定了BP是个递推过程。

的求解过程是是个从后往前的递推过程。

的求解比较简单。
由于：

则有：

神经网络之全连接层详解

bottom节点数。下图给出了这几个关键量在Caffe中的存在形式：

神经网络之全连接层详解
数学形式为：

后向还是分两部分算,一部分是计算。下图给出Caffe计算后向传播时的几个关键量。

神经网络之全连接层详解

则有下面的实现：

即：

可以看出，其主要操作是GEMM和GEMV。