Jacobian and Hessian（雅克比矩阵和海塞矩阵）

雅克比矩阵（Jacobian ）

雅可比矩阵 是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式。

假设 $F: R_n \to R_m$ 是一个从欧式 n 维空间转换到欧式 m 维空间的函数. 这个函数由 m 个实函数组成:，记作

这些函数的偏导数(如果存在)可以组成一个 m 行 n 列的矩阵, 这就是所谓的雅可比矩阵：

$\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix}$

该矩阵记作 $J_F(x_1,....,x_n)$ ，每一行（一行 n 个数），表示该实数关于 x 的偏导数的集合。

由于矩阵描述了向量空间中的运动——变换，而雅可比矩阵可以看作是将点 $x_1,....,x_n$ 转化到点 $y_1,....,y_n$ ，或者说是从一个 n 维的欧式空间转换到 m 维的欧氏空间。

雅克比矩阵的作用：该矩阵的重要性体现在可以利用该矩阵进行线性逼近。
如果 p 是 $R_n$ 中的一点，则我们可以根据 $F(p)$ 所指的向量方向，将 x 逼近与 p，进而获得 F(x) 的表达式为：
$F(x)\approx F(p)+J_F(p)\cdot (x-p)$

如下图所示，我们可以使用雅克比矩阵和任意点与 p 点的距离来估算 x 所对应的 f 值（绿色虚线部分）。可以看出，当估计的点距离 p 点越近，估计出来的点的误差越小。这也就是为什么叫做 线性逼近 的原因，也是为什么深度学习时，学习率一般不会很大的原因。

注：可能 PyTorch 和 TensorFlow 中的梯度下降库的实现过程，就是利用了这个雅克比矩阵。

雅克比行列式

当 m =n 时，雅可比矩阵就是一个方阵，此时他就存在行列式，记作雅克比行列式。

在某个给定点的雅可比行列式提供了在接近该点时的表现的重要信息.

在二维情况（有直观的图），雅可比行列式代表 xy 平面上的面积微元与 uv 平面上的面积微元的比值。

Jacobian and Hessian（雅克比矩阵和海塞矩阵）
可以理解为：雅克比行列式就是函数 F 在 p 点的缩放因子

例如, 如果连续可微函数 F 在p 点的雅可比行列式不是零, 那么它在该点附近具有反函数. 这称为反函数定理.
更进一步, 如果 p 点的雅可比行列式是正数, 则F FF在p pp点的取向不变；
如果是负数, 则 F 的取向相反. 而从雅可比行列式的绝对值, 就可以知道函数 F在 p 点的缩放因子；