示意图

符号说明
y0:zl:yl:σ:sl:t:L:fil:I(i):δil:δl:输入,y∈Rs0×1第l层输出z(l)∈Rsl×1第l层输出y(l)∈Rsl×1激活函数表示l层y(l)z(l)的向量维数表示真实值一共L层表示∂zil∂yil表示为列向量,且在第i行为1,其余位置为0;表示∂yil∂E表示∂yl∂E,即为:(δ1l,δ2l,⋯,δsll)
它们之间的关系:
zlzilylyil=wl∗yl−1=j=1∑s(l−1)wij∗yjl−1=σ(yl)=σ(zil)f(x)
矩阵相关求导说明
符号说明
y:列向量,y∈Rn×1
x:列向量,x∈Rm×1
f(x):实值标量函数,记做f:Rm→R
公式
∂x∂yT∂y∂yT∂xf(x)=⎝⎜⎛∂x1∂y1⋮∂xm∂y1⋯⋯∂x1∂yn⋮∂xm∂yn⎠⎟⎞=En×n=[∂x1f(x),⋯,∂xmf(x)]T
公式推导
误差定义
EEp=m1p=1∑m(Ep)=21(yL−tL)2=21i=1∑sL(yiL−ti)2
其中m为样本数,为了推导简单,让m=1
求∂wijL∂E
几点说明
∂wijl∂zkl∂wij∂zl∂(zl)T∂yl∂(yl−1)T∂zl∂yl−1∂yl∂(yL)T∂E∂zil−1∂zl∂yil−1∂yl={zjl−10z=ik̸=i=[∂wijl∂z1l,⋯,∂wijl∂zsll]T∈Rsl×1=I(i).zil−1=⎝⎜⎜⎜⎛∂z1l∂y1l⋮∂z1l∂ysll⋯⋯∂zsll∂y1l⋮∂zsll∂ysll⎠⎟⎟⎟⎞∈Rsl×sl=⎝⎜⎜⎛f1lf2l⋱f(sl)l⎠⎟⎟⎞=⎝⎜⎜⎜⎜⎛∂y1l−1∂z1l⋮∂y1l−1∂zsll⋯⋯∂ys(l−1)l−1∂z1l⋮∂ys(l−1)(l−1)∂zsll⎠⎟⎟⎟⎟⎞=⎝⎜⎛w11l⋮w(sl)1l⋯⋯w(s(l−1))1l⋮w(sl)(s(l−1))l⎠⎟⎞∈Rsl×s(l−1)=∂zl∂yl.∂yl−1∂zl=∂(zl)T∂yl.∂zl∂(zl)T.∂(yl−1)T∂zl.∂yl−1∂(yl−1)T=∂(zl)T∂yl.∂(yl−1)T∂zl=⎝⎜⎛f1lw11l⋮fsllw(sl)1l⋯⋯f1lw(s(l−1))1⋮fsllw(sl)(s(l−1))l⎠⎟⎞∈Rsl×s(l−1)=[y1L−t1,⋯,ysLL−tsL]=[w1il,w2il,⋯,w(sl)il]T=∂zl∂yl.∂yil−1∂zl=⎝⎜⎜⎛f1lf2l⋱f(sl)l⎠⎟⎟⎞.⎝⎜⎜⎛w1ilw2il⋯w(sl)il⎠⎟⎟⎞=⎝⎜⎜⎜⎛f1lw1ilf2lw2il⋮f(sl)lw(sl)il⎠⎟⎟⎟⎞
求解
∂wijL∂E∂wijL−1∂E=∂yL∂E.∂wijL∂yL=∂(yL)T∂E.∂yL∂(yL)T.∂wijL∂yL.=(y1L−t1,⋯,ysLL−tsL).I(i).ziL−1=∂yL∂E.∂yL−1∂yL.∂wijL−1∂yL−1=(y1L−t1,⋯,ysLL−tsL).⎝⎜⎛f1Lw11L⋮fsLLw(sL)1L⋯⋯f1Lw(s(L−1))1⋮fsLLw(sL)(s(L−1))L⎠⎟⎞.I(i).zil−1=k=1∑sl(ykL−tk)f1LwkiLzjL−1
另一种定义方法
∂wijL∂E∂wijL−1∂Eδil−1∂wijL∂E∂wijl∂E=∂yiL∂E.∂wijL∂yiL=(yiL−hi)ziL−1=∂yL∂E.∂yiL−1∂yL.∂wijL−1∂yiL−1=(y1L−t1,⋯,ysLL−tsL).⎝⎜⎜⎜⎛f1Lw1iLf2Lw2iL⋮f(sL)Lw(sL)iL⎠⎟⎟⎟⎞.ziL−1=k=1∑sl(ykL−tk)f1LwkiLzjL−1=∂yil−1∂E=∂yl∂E.∂yil−1∂yl=(δ1l,δ2l,⋯,δsll).⎝⎜⎜⎜⎛f1lw1ilf2lw2il⋮f(sl)lw(sl)il⎠⎟⎟⎟⎞=k=1∑slδklfklw(sl)il=∂yiL∂E.∂wijL∂yiL=δiLziL−1=(yiL−hi)ziL−1=∂yl∂E.∂wijl∂yil=δilzil−1=k=1∑s(l+1)δk(l+1)fkl+1wkil+1zjl−1