降低损失:梯度下降法
回归问题: 产生的损失与w1的图形始终是凹型(碗状图)
凹形只有一个 最低点 :即只存在一个 斜率正好为0 的位置
这个最低点就是 损失函数收敛 之处
不过通过计算整个数据集中w1每个可能值得损失函数来找到收敛点效率过于低下,引出 梯度下降法
梯度下降法
① 为 w1 选择一个 起点 。ps:起点并不重要,所以大多算法直接将 w1 设为 0 或者 随机选择一个值
② 计算损失曲线在起点处的 梯度 ,换言之,梯度是 偏导数 的矢量,了解哪个方向距离目标“更近”或“更远”
损失相对于单个权重的梯度就等于导数
梯度是一个矢量,具有以下特征:
- 方向
- 大小
梯度始终指向损失函数中增长最为迅猛的方向
梯度下降法算法会沿着负梯度的方向走一步,以便尽快降低损失
梯度下降法依赖于负梯度
为了确定损失函数曲线上的下一个点,梯度下降法算法会将梯度大小的一部分与起点相加
一个梯度步长移动到损失曲线上的下一个点
梯度下降法会重复此过程,逐渐接近最低点