原地址:https://zhuanlan.zhihu.com/p/79657669

1. 前向传播

反向传播算法推导过程(非常详细)

假设 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的矩阵(其中, 反向传播算法推导过程(非常详细) 为样本个数(batch size), 反向传播算法推导过程(非常详细) 为特征维数):

反向传播算法推导过程(非常详细) 与 反向传播算法推导过程(非常详细) 的维数为 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的矩阵, 反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细) 与 反向传播算法推导过程(非常详细) 的维数为 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的矩阵, 反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细) 与 反向传播算法推导过程(非常详细) 的维数为 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的矩阵, 反向传播算法推导过程(非常详细)

前向算法:

反向传播算法推导过程(非常详细)

假设输出为 反向传播算法推导过程(非常详细) 维,则 反向传播算法推导过程(非常详细) 为大小为 反向传播算法推导过程(非常详细) 的矩阵,根据MSE或CE准则可以求得 反向传播算法推导过程(非常详细) ,对于回归问题与分类问题, 反向传播算法推导过程(非常详细) 的求解方法如下:

反向传播算法推导过程(非常详细)

  • 对于回归问题,对out直接计算损失,损失函数为MSE。 损失: 反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

  • 对于分类问题,out后接softmax进行分类,然后使用CE(cross entropy)计算loss. 反向传播算法推导过程(非常详细) 一个样本对应的网络的输出 反向传播算法推导过程(非常详细) 是一个概率分布,而这个样本的标注 反向传播算法推导过程(非常详细) 一般为 反向传播算法推导过程(非常详细) ,也可以看做一个概率分布(硬分布)。cross entropy可以看成是 反向传播算法推导过程(非常详细) 与 反向传播算法推导过程(非常详细) 之间的KL距离:

反向传播算法推导过程(非常详细)

  • 假设 反向传播算法推导过程(非常详细) ,其中1为第 反向传播算法推导过程(非常详细) 个元素(索引从0开始),令 反向传播算法推导过程(非常详细) .

损失: 反向传播算法推导过程(非常详细) 反向传播算法推导过程(非常详细)

KL距离(相对熵):是Kullback-Leibler Divergence的简称,也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布 P(x) 对应的每个事件,若用概率分布 Q(x) 编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用 反向传播算法推导过程(非常详细) 表示KL距离,计算公式如下:反向传播算法推导过程(非常详细) ,当两个概率分布完全相同时,即 P(X)=Q(X) ,其相对熵为0.

2.反向传播

反向传播算法推导过程(非常详细) ,为了便于详细说明反向传播算法,假设 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的向量, 反向传播算法推导过程(非常详细) 为 反向传播算法推导过程(非常详细) 的向量: 反向传播算法推导过程(非常详细)

所以, 反向传播算法推导过程(非常详细)

1) 损失 反向传播算法推导过程(非常详细) 对 反向传播算法推导过程(非常详细) 的导数:

反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

即, 反向传播算法推导过程(非常详细)

2) 损失对偏置b的导数等于将 反向传播算法推导过程(非常详细) 的每一列加起来:

反向传播算法推导过程(非常详细)

3) 损失 反向传播算法推导过程(非常详细) 对 反向传播算法推导过程(非常详细) 的导数:

反向传播算法推导过程(非常详细)

即,

反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

4) 损失 反向传播算法推导过程(非常详细) 对 反向传播算法推导过程(非常详细) 的导数:

反向传播算法推导过程(非常详细)

  • 反向传播算法推导过程(非常详细) 为sigmoid时, 反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

  • 反向传播算法推导过程(非常详细) 为tanh时, 反向传播算法推导过程(非常详细) .

反向传播算法推导过程(非常详细)

  • 反向传播算法推导过程(非常详细) 为relu时, 反向传播算法推导过程(非常详细)

反向传播算法推导过程(非常详细)

3. 梯度更新

对于不同算法 ,梯度更新方式如下: 反向传播算法推导过程(非常详细)

相关文章:

  • 2021-12-28
  • 2021-12-30
  • 2021-08-01
猜你喜欢
  • 2021-10-05
  • 2021-11-15
  • 2021-08-05
相关资源
相似解决方案