线性回归
梯度下降
模型的输出
多个目标对应多个任务,对应多组权重,对应多个输出类别
线性回归的局限
非线性激励的考量标准
- 正向:对输入的调整,[0,1] 或 [-1 , +1]
- 反向:梯度损失大小
常用的非线性激励函数
Sigmoid
Tanh
ReLU(Rectified linear unit)
Leaky ReLU
面试题:有线性回归网络么?
没有,如上所示,如果不通过非线性**函数,每层都是一个线性回归,递归计算导致最终多层的权重可以用单层的权重来表示,最终为结果只相当于一个线性回归。
神经网络的构成
通过链式法则进行前向、反向传播
神经网络的“配件”
面试题: 用动量和直接调大学习率有什么区别?
动量是根据之前的方向进行方向微调,而调大学习率是沿着方向大步走。
参数越多,越能处理更多的输入情况,即对输入有更高的适应性。
面试题:什么叫weight decay,与regularization有何联系?
权重衰减,等同于正则化,为了loss的导数尽可能小,即要求w尽量平衡。
dropout使权重平均,让每层随机选择其中几个神经元失活仍可以达到同样效果。
面试题:Dropout,Pooling的区别
pooling的本质是降维;dropout的本质是正则化,使权重分布更均衡。