为了更好地准确率,模型越来越大

第十五讲--深度学习的方法及硬件

不同硬件消耗的能量不同

第十五讲--深度学习的方法及硬件

第十五讲--深度学习的方法及硬件

第十五讲--深度学习的方法及硬件

* 谷歌的TPU是一种ASIC,专门用于深度学习

---------------------------------------------------------------------------------------------------------

计算机中的数字是离散的,不可能穷尽。

第十五讲--深度学习的方法及硬件

fixed point只有8位,谷歌TPU就是使用了这种小数。节约能源,金钱

---------------------------------------------------------------------------------------------------------

第十五讲--深度学习的方法及硬件

pruning

第十五讲--深度学习的方法及硬件

神经网络可以在参数减少的情况下,保持准确率(某些参数是冗余的)

Alex Net参数从1600万降到了600万

第十五讲--深度学习的方法及硬件

通过prune,retrain,可以去掉90%的参数而几乎不影响正确率

人脑突触数量也会在成年后进行prune

----------------------------------------------------------------------------------------

weight sharing

将权重和梯度聚类处理,参数值变得更加离散化

第十五讲--深度学习的方法及硬件

第十五讲--深度学习的方法及硬件

霍夫曼编码:

出现次数多的权重用更少的位数表示

第十五讲--深度学习的方法及硬件

换个思路,直接做compact的网络。这样的网络还可以压缩,且不降低正确率

第十五讲--深度学习的方法及硬件

----------------------------------------------------------------

低秩矩阵近似

将卷积,全连接拆成多个步骤去做,可以加速

第十五讲--深度学习的方法及硬件

-----------------------------------------------------------------------------------------

二值化,三值化

第十五讲--深度学习的方法及硬件

三值化的Alex Net可以和普通Alex Net有一样的正确率

第十五讲--深度学习的方法及硬件

------------------------------------------------------------------------------------

wino grad 

3*3的卷积可以用如下方式实现,乘法操作次数更少

第十五讲--深度学习的方法及硬件

---------------------------------------------------------------------------------------------------------------

第十五讲--深度学习的方法及硬件

TPU中含有一个关键的矩阵乘法单元(很高效)

TPU很小,功耗低

-------------------------------------------------------------------------------------------------------------

RoofLine理论用来评价模型在计算平台上所能达到的理论性能,可查看如下链接

https://zhuanlan.zhihu.com/p/34204282

为了降低延迟(达到实时性在线系统),每个batch不能有很多数据,所以模型 I 小于 平台 I max无法完全利用计算平台。

--------------------------------------------------------------------------------------------------------------

解决方案:压缩模型

硬件:EIE

第十五讲--深度学习的方法及硬件

-------------------------------------------------------------------------------------------------

parallel处理

数据并行处理

模型并行处理

--------------------------------------------

mixed precision: 乘法用16位数字,加法用32位数字

第十五讲--深度学习的方法及硬件

----------------------------------------------------------------------------

model distilidatoin 让几个高级模型教出一个学生

第十五讲--深度学习的方法及硬件

使用概率类别作为输入标签会有更好的效果

--------------------------------------------------------------------------------------------

Dense Sparse Dense Training

第十五讲--深度学习的方法及硬件

第十五讲--深度学习的方法及硬件

-----------------------------------------------------------------------------------------------------

英伟达volta GPU中含有120个tensor core

第十五讲--深度学习的方法及硬件


相关文章:

  • 2022-01-02
  • 2022-12-23
  • 2021-07-31
  • 2021-11-30
  • 2021-12-30
  • 2021-09-26
  • 2022-12-23
  • 2021-11-27
猜你喜欢
  • 2021-08-11
  • 2021-04-27
  • 2021-04-29
  • 2021-07-09
  • 2021-08-10
  • 2021-03-31
  • 2022-01-12
相关资源
相似解决方案