Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/79830725
清明假期,比较无聊,学习一波李宏毅老师的[MLDS]课程。
资料
课程幻灯:[PDF:Optimization] [PPT: Optimization]
课程视频:
Theory 2-1: When Gradient is Zero [Youtube] [BaiduNetdisk]
Theory 2-2: Deep Linear Network [Youtube] [BaiduNetdisk]
Theory 2-3: Does Deep Network have Local Minima? [Youtube] [BaiduNetdisk]
Theory 2-4: Geometry of Loss Surfaces (Conjecture) [Youtube] [BaiduNetdisk]
Theory 2-5: Geometry of Loss Surfaces (Empirical) [Youtube] [BaiduNetdisk]
笔记
Theory 2-1: When Gradient is Zero
PP1
1、深度学习的损失函数是非凸的。
2、可采用梯度下降法求解深度网络参数。
PP2
非凸优化不一定是困难的。
左边的情况,那就容易陷入局部最小;右边上面的情况,那就类似于凸问题;而右边下面的情况,那就是全部局部最小都是全局最小。
PP3
critical point为驻点,saddle point为鞍点,两者的梯度都为0,可通过第二导数进行判断。
PPT4
这部分涉及数值计算内容。
PP5
海塞矩阵的意义:曲率,也即判断函数是凸的还是凹的。
PPT6-7