作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


在大多数的神经网络教科书中,神经网络一般都会使用 y = WX+B 或者 y = XW+B 的形式。但是在 tensorflow 或者 theano 中,神经网络的实现都是采用了 y = XW+B 的形式。这是为什么呢?我花了很多的时间去查找资料,最后发现一点,可能是 y = XW+B 计算导数比 y = WX+B 容易。

从理论上讲,XW+B 和 WX+B 在神经网络中是等价的(其实就是一个矩阵的转置)。然而,当我们计算两者的导数的时候却差别很大。我们通过具体的数学推导来感受一下吧。

比如:y = XW

深度神经网络:WX+b-vs-XW+b

比如:y = WX

深度神经网络:WX+b-vs-XW+b


原文

matrix cookbook

相关文章:

  • 2022-12-23
  • 2021-12-04
  • 2022-01-13
  • 2021-10-14
  • 2021-04-10
  • 2021-12-04
  • 2021-06-01
  • 2021-10-06
猜你喜欢
  • 2021-12-15
  • 2021-04-16
  • 2022-12-23
  • 2021-05-16
  • 2021-12-04
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案