知乎讨论:

https://www.zhihu.com/question/61607442/answer/204675996

 

案例一

http://www.myzaker.com/article/5a68020fd1f1495d57000030/

Training Imagenet in one hour

本篇论文发现了 large batch 可以大大的提升分类网络的收敛速度,通过把 batch size 从 256 提升到 8192,将训练时间从几周降低到了 1 个小时,大大提升了神将网络的训练速度。

 

案例二

insightface 人脸识别讨论

batch size越大越好

 

实际中,受限于显卡内存的限制,batch_size不能无限增大,导致网络收敛速度慢。

从统计学的角度来看,batch_size越大意味着,参与计算各种mean计算的结果(BN, avg Grident)越准确.

 

相关文章:

  • 2022-12-23
  • 2022-01-03
  • 2021-11-21
  • 2021-06-29
  • 2021-04-27
  • 2021-04-15
  • 2022-12-23
  • 2021-09-02
猜你喜欢
  • 2021-09-26
  • 2021-03-30
  • 2021-08-01
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案