李宏毅机器学习2016 第六讲深度学习

课程资源：Hung-yi Lee

课程相关PPT已经打包命名好了：链接：https://pan.baidu.com/s/1c3Jyh6S 密码：77u5

本章节首先介绍了深度学习的历史，然后较为详细地讲解了深度学习的三大步。

1.深度学习的起起伏伏

李宏毅机器学习2016 第六讲深度学习

深度学习历史

其实在1958年就已经提出了感知机模型，其和上一节所讲的逻辑回归相比，只是最后计算值没有经过sigmoid函数处理。而是通过sgn函数输出结果0或1.

多层感知机模型在80年代就已经提出，很多人会问其和深度学习有什么区别？其实在之前06年RBM受限制玻尔兹曼机模型，如果说初始化用的是RBM就是深度学习，否则就是多层感知机，不过这一想法被否定了，因为人们发现这个RBM并没有那么大用处，就像是“石头汤”里面的石头一样。

GPU的利用极大的提升了深度学习的计算能力。

在12年的时候，深度学习参加ILSVRC图像大赛夺冠，引起了人们的关注。

2.深度学习三大步

深度学习和之前讲的其他机器学习方法没有很大区别，第一步是选择神经网络，第二步是定义函数好坏标准，第三步就是选择一个好的函数。这就像把大象放进冰箱一样简单。

Step1：

不同的连接方式会得到不同神经网络结构，最常见的就是全连接神经网络。

给一个网络结构，就定义了一个函数集；有确切的w和b，就是一个具体的函数。

李宏毅机器学习2016 第六讲深度学习

不同的网络结构

通过矩阵运算以及GPU的并行计算能力能够加速网络的学习。

深度学习明显的优势在于不用手动的去做特征工程，而是可以通过定义网络结构隐藏层等使得网络可以自动提取特征。

常见问题

step2：定义函数好坏标准

损失函数用的是交叉熵函数，对于所有的训练样本，得到损失值，再进行参数更新找到能够使得损失最小的函数。

step3：挑选最佳函数

方法还是用的gradient descent，即使是阿尔法狗都是用的梯度下降。

计算偏导在神经网络中会较为复杂，但是现成有很多库能够帮助我们较快的计算出偏导。

例如TensorFlow、caffe、theano等等。

3.思考

具有一个隐藏层的网络结构就可以表示任意复杂的函数，只要有足够的隐藏单元。

所以，为什么要选择深的网络而不是选择胖的呢？