「Deep Learning」MLDS 2018 Spring: Optimization

Sina Weibo：小锋子Shawn
Tencent E-mail：[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/79830725

清明假期，比较无聊，学习一波李宏毅老师的[MLDS]课程。

资料

课程幻灯：[PDF:Optimization] [PPT: Optimization]
课程视频：
Theory 2-1: When Gradient is Zero [Youtube] [BaiduNetdisk]
Theory 2-2: Deep Linear Network [Youtube] [BaiduNetdisk]
Theory 2-3: Does Deep Network have Local Minima? [Youtube] [BaiduNetdisk]
Theory 2-4: Geometry of Loss Surfaces (Conjecture) [Youtube] [BaiduNetdisk]
Theory 2-5: Geometry of Loss Surfaces (Empirical) [Youtube] [BaiduNetdisk]

笔记

Theory 2-1: When Gradient is Zero

PP1
1、深度学习的损失函数是非凸的。
2、可采用梯度下降法求解深度网络参数。
「Deep Learning」MLDS 2018 Spring: Optimization
PP2
非凸优化不一定是困难的。
左边的情况，那就容易陷入局部最小；右边上面的情况，那就类似于凸问题；而右边下面的情况，那就是全部局部最小都是全局最小。

PP3
critical point为驻点，saddle point为鞍点，两者的梯度都为0，可通过第二导数进行判断。
「Deep Learning」MLDS 2018 Spring: Optimization
PPT4
这部分涉及数值计算内容。

PP5
海塞矩阵的意义：曲率，也即判断函数是凸的还是凹的。

PPT6-7