视频学习
摆脱肥宅,从我做起—day01

为什么有些小样本数据集可以用很小的minibatch,好像有16,8的?
摆脱肥宅,从我做起—day01

感觉就是平均的规则太“死板”,所以弄个加权。而普通加权又是另一种“死板”,所以用前面的所有“平均”代表当前数。之所以“指数”,是因为,按公式一层层套进去之后,其实就是一个和贝塔有关的指数。
摆脱肥宅,从我做起—day01

同理,普通梯度下降,梯度更新也太“死板”,所以借用指数加权平均思想,来更新梯度。(视频有个球滚下碗的比喻,贝塔比喻摩擦,微分比喻加速度,所以“速度不会无止尽增加。不太理解

相关文章:

  • 2021-05-06
  • 2022-12-23
  • 2021-11-16
  • 2021-12-16
  • 2021-05-08
  • 2021-06-13
  • 2021-06-11
  • 2021-10-19
猜你喜欢
  • 2022-01-08
  • 2021-12-11
  • 2022-01-15
  • 2021-09-22
  • 2022-12-23
  • 2021-08-14
  • 2022-12-23
相关资源
相似解决方案