《深度学习》学习笔记三——数值计算

上溢和下溢

下溢(underflow)是一种极具毁灭性的舍入误差.当接近零的数被四舍五入为零时发生下溢
上溢(overflow)是一种极具破坏力的数值错误形式.当大量级的数被近似为 $\infty$ 或者 $- \infty$ 时发生上溢,进一步的运算通常会导致这些无限值变成非数字.
softmax 函数(softmax function)可以对上溢和下溢进行数值稳定的一个函数,softmax函数经常用于预测与Multinoulli分布相关联的概率,定义为:

基于梯度的优化方法

大多数深度学习算法都涉及某种形式的优化.优化指的是改变 $x$ 以最小化或最大化某个函数 $f (x)$ 的任务.我们通常以最小化 $f (x)$ 指代大多数最优化问题,最大化可以经由最小化算法最小化 $- f (x)$ 来实现
我们把要最小化或最大化的函数称为目标函数(objective function)或者准则(criterion).当我们对其进行最小化时,也把它称为代价函数(cost function),损失函数(loss function)或者误差函数(error function)

导数

导数（derivative）：设函数 $y = f (x)$ 在点 $x_{0}$ 的某邻域 $U (x_{0})$ 内有定义,当自变量 $x$ 在点 $x_{0}$ 处取得增量 $△ x$ ( $△ x \neq 0$ 且 $x_{0} + △ x \in U (x_{0})$ )时,相应的函数 $y$ 取得增量:

\begin{matrix} (1) & △ y = f (x_{0} + △ x) - f (x_{0}) \end{matrix}

若极限

\begin{matrix} (2) & lim_{△ x \to 0} \frac{△ y}{△ x} = lim_{△ x \to 0} \frac{f (x_{0} + △ x) - f (x_{0})}{△ x} \end{matrix}

存在,则称函数

y = f (x)

在点

x_{0}

可导,并称此极限值为函数

y = f (x)

在点

x_{0}

的导数,记作

f^{'} (x_{0})

或者

{\frac{d y}{d x} |}_{x = x_{0}}

由上面的定义可得若曲线

y = f (x)

存在一点

(x_{0}, y_{0})

,并且在这点上可导,导数为

f^{'} (x_{0})

,那么导数

f^{'} (x_{0})

就是该点的斜率.
梯度下降(gradient descent)导数对最小化一个函数很有用,当

△ x

足够小时,

f (x - △ x s i g n (f^{'} (x)))

是比

f (x)

小的,因此我们可以将

x

往导数的反方向移动一小步来减小

f (x)

.这种技术称为梯度下降
《深度学习》学习笔记三——数值计算

在不断重复上面操作后,最终可以得到

f^{'} (x) = 0

,改点称为临界点(critical point)或驻点(stationary),这个驻点可能是极大点(maximum),或者是极小点(minimum),还有可能是鞍点(saddle point),还要进一步计算.

当驻点的左边的 $△ x$ 距离的 $f^{'} (x)$ 小于0,而驻点的右边边的 $△ x$ 距离的 $f^{'} (x)$ 大于0,则该驻点是极小值
当驻点的左边的 $△ x$ 距离的 $f^{'} (x)$ 大于0,而驻点的右边边的 $△ x$ 距离的 $f^{'} (x)$ 小于0,则该驻点是极大值
当驻点的距离左右两边的 $△ x$ 距离的 $f^{'} (x) =$ 都小于0或都大于0,则该驻点是鞍点

在上面用到了 $s i g n$ 函数,下面的就是 $s i g n$ 定义:
$\begin{matrix} (3) & s i g n (x) = {\begin{matrix} 1, x > 0 \\ 0, x = 0 \\ - 1, x < 0 \end{matrix} \end{matrix}$
$s i g n$ 函数的坐标图：

偏导数

当函数只有二维输入时，其只有一个驻点，所以这个驻点就是它的最小点或者最大点。但是通常遇到更多的是多维输入的函数，它具有多个驻点，所以它有多个极小点和极大点，如下图。所以通过上面的方法很难找到最大点或者最小点。
《深度学习》学习笔记三——数值计算
针对具有多维输入的函数，我们就需要用到偏导数(partial derivative)的概念了。
设函数 $z = f (x, y)$ 在点 $(x_{0}, y_{0})$ 的某个领域内有定义，当 $y$ 固定在 $y_{0}$ 而 $x$ 在 $x_{0}$ 处有增量 $△ x$ 时，相应地函数有增量

\begin{matrix} (4) & f (x_{0} + △ x, y_{0}) - f (x_{0}, y_{0}) \end{matrix}

如果有极限

\begin{matrix} (5) & lim_{△ x \to 0} \frac{f (x_{0} + △ x, y_{0}) - f (x_{0}, y_{0})}{△ x} \end{matrix}

存在，则称此极限为函数

z = f (x, y)

在点

(x_{0}, y_{0})

处对 $x$ 的偏导数，记作：

\begin{matrix} (6) & {\frac{\partial f}{\partial x} |}_{x = x_{0}, y = y 0} 或 f_{x}^{'} (x_{0}, y_{0}) \end{matrix}

同理，函数

z = f (x, y)

在点

(x_{0}, y_{0})

处对 $y$ 的偏导数为：

\begin{matrix} (7) & f_{y}^{'} (x_{0}, y_{0}) = lim_{△ y \to 0} \frac{f (x_{0}, y_{0} + △ y) - f (x_{0}, y_{0})}{△ y} \end{matrix}

例求

f (x, y) = x^{2} + 3 x y + y^{2}

在点(2,1)处的偏导数

f_{x} (2, 1), f_{y} (2, 1)

.
解：把

y

看作常数，对

x

求导得到

\begin{matrix} (8) & f_{x} (x, y) = 2 x + 3 y \end{matrix}

把

x

看作常数，对

y

求导得到

\begin{matrix} (9) & f_{y} (x, y) = 3 x - 2 y \end{matrix}

代入

x = 2, y = 1

，故所求偏导数为：

\begin{matrix} (10) & f_{x} (2, 1) = 7, f_{y} (2, 1) = 4 \end{matrix}

梯度(gradient)是相对一个向量求导的导数：

f

的导数是包含所有偏导数的向量，记作

\nabla_{x} f (x)

。梯度的第

i

个元素是

f

关于

x_{i}

的偏导数。在多维情况下，临界点是梯度中所有元素都为零的点。

约束优化

有时候,在 $x$ 的所有可能值下最大化或者最小化一个函数 $f (x)$ 不是我们所希望的,相反,我们可能希望在 $x$ 的某些集合 $S$ 中找到 $f (x)$ 的最大值或者最小值,这个称为约束优化(constrained optimization)
Karush-Kuhu-Tucker(KKT)方法是针对约束优化非常通用的解决方案,KKT方法是Lagrange乘子法(只允许等式约束)的推广

参考资料

lan Goodfellow,Yoshua Bengio,Aaron Courville.深度学习(中文版).赵申剑,黎彧君,符天凡,李凯,译.北京:人民邮电出版社
郭游瑞,徐应祥,任阿娟,赵志琴.高等数学简明教程.上海:复旦大学出版社

目录

上溢和下溢

基于梯度的优化方法

导数

偏导数

约束优化

参考资料