第十五讲--深度学习的方法及硬件

为了更好地准确率，模型越来越大

第十五讲--深度学习的方法及硬件

不同硬件消耗的能量不同

第十五讲--深度学习的方法及硬件

* 谷歌的TPU是一种ASIC，专门用于深度学习

---------------------------------------------------------------------------------------------------------

计算机中的数字是离散的，不可能穷尽。

第十五讲--深度学习的方法及硬件

fixed point只有8位，谷歌TPU就是使用了这种小数。节约能源，金钱

---------------------------------------------------------------------------------------------------------

第十五讲--深度学习的方法及硬件

pruning

第十五讲--深度学习的方法及硬件

神经网络可以在参数减少的情况下，保持准确率（某些参数是冗余的）

Alex Net参数从1600万降到了600万

第十五讲--深度学习的方法及硬件

通过prune,retrain，可以去掉90%的参数而几乎不影响正确率

人脑突触数量也会在成年后进行prune

----------------------------------------------------------------------------------------

weight sharing

将权重和梯度聚类处理，参数值变得更加离散化

第十五讲--深度学习的方法及硬件

霍夫曼编码：

出现次数多的权重用更少的位数表示

第十五讲--深度学习的方法及硬件

换个思路，直接做compact的网络。这样的网络还可以压缩，且不降低正确率

第十五讲--深度学习的方法及硬件

----------------------------------------------------------------

低秩矩阵近似

将卷积，全连接拆成多个步骤去做,可以加速

第十五讲--深度学习的方法及硬件

-----------------------------------------------------------------------------------------

二值化，三值化

第十五讲--深度学习的方法及硬件

三值化的Alex Net可以和普通Alex Net有一样的正确率

第十五讲--深度学习的方法及硬件

------------------------------------------------------------------------------------

wino grad

3*3的卷积可以用如下方式实现，乘法操作次数更少

第十五讲--深度学习的方法及硬件

---------------------------------------------------------------------------------------------------------------

第十五讲--深度学习的方法及硬件

TPU中含有一个关键的矩阵乘法单元（很高效）

TPU很小，功耗低

-------------------------------------------------------------------------------------------------------------

RoofLine理论用来评价模型在计算平台上所能达到的理论性能,可查看如下链接

https://zhuanlan.zhihu.com/p/34204282

为了降低延迟（达到实时性在线系统），每个batch不能有很多数据，所以模型 I 小于平台 I max无法完全利用计算平台。

--------------------------------------------------------------------------------------------------------------

解决方案：压缩模型

硬件：EIE

第十五讲--深度学习的方法及硬件

-------------------------------------------------------------------------------------------------

parallel处理

数据并行处理

模型并行处理

--------------------------------------------

mixed precision: 乘法用16位数字，加法用32位数字

第十五讲--深度学习的方法及硬件

----------------------------------------------------------------------------

model distilidatoin 让几个高级模型教出一个学生

第十五讲--深度学习的方法及硬件

使用概率类别作为输入标签会有更好的效果

--------------------------------------------------------------------------------------------

Dense Sparse Dense Training

第十五讲--深度学习的方法及硬件

-----------------------------------------------------------------------------------------------------

英伟达volta GPU中含有120个tensor core

第十五讲--深度学习的方法及硬件