矩阵，向量，标量之间的导数

先说明一些符号：

标量y,向量 $\overrightarrow{y}$ ,矩阵 $X,Y$ .
$\overrightarrow{y}=\begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_n \end{bmatrix} \overrightarrow{x}=\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix}$
$X=\begin{bmatrix} x_{11} &x_{12} &\cdots &x_{1n} \\ x_{21}&x_{22} &\cdots &x_{2n} \\ \vdots& \vdots & \cdots &\vdots \\ x_{m1}&x_{m2} & \cdots &x_{mn} \end{bmatrix}$

在矩阵求导这里有两种布局方式，常用的是分子布局，我下面所用的就是分子布局。

标量对向量求导

$\frac{\partial y}{\partial \overrightarrow{x}}=\begin{bmatrix} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2}& \cdots& \frac{\partial y}{\partial x_n} \end{bmatrix}$
这是分子布局下标量对向量的求导，记住了这种方式，下面的就容易多了.

向量对向量求导

向量对向量求导，本质就是分子向量的每一个值(标量)对分母向量求导，具体的就是 $y_1$ 对 $\overrightarrow{x}$ 求导， $y_2$ 对 $\overrightarrow{x}$ 求导，一直到 $y_n$ 对 $\overrightarrow{x}$ 求导.那么正如标量对向量求导， $y_1$ 对 $\overrightarrow{x}$ 求导的结果就是
$\frac{\partial y_1}{\partial \overrightarrow{x}}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2}& \cdots& \frac{\partial y_1}{\partial x_n} \end{bmatrix}$
所以
$\frac{\partial \overrightarrow{y}}{\partial \overrightarrow{x}}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2} &\cdots &\frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} &\cdots &\frac{\partial y_2}{\partial x_n} \\ \vdots&\vdots & \cdots &\vdots \\ \frac{\partial y_n}{\partial x_1}&\frac{\partial y_n}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_n} \end{bmatrix}$
每一行就是标量对向量求导的计算结果。

标量对矩阵求导

对于矩阵 $X$ ，它是 $m\times n$ 的矩阵，我们可以给它看成是 $n$ 个 $m$ 维的列向量，那么问题就变为了标量对 $n$ 个向量的求导，例如标量 $y$ 对矩阵 $X$ 的第一列
$\begin{bmatrix} x_{11}\\ x_{21}\\ \vdots\\ x_{m1} \end{bmatrix}$
的求导就是
$\begin{bmatrix} \frac{y}{\partial x_{11}} &\frac{y}{\partial x_{21}} &\cdots &\frac{y}{\partial x_{m1}} \end{bmatrix}$
所以
$\frac{\partial y}{\partial X}=\begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{m1}} \\ \frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} &\cdots &\frac{\partial y}{\partial x_{m2}} \\ \vdots& \vdots & \cdots & \vdots\\ \frac{\partial y}{\partial x_{1n}} &\frac{\partial y}{\partial x_{2n}} & \cdots &\frac{\partial y}{\partial x_{mn}} \end{bmatrix}$

下图来自维基百科上矩阵求导详述
矩阵，向量，标量之间的导数

解释完了上面的部分，我们也就明白下图中为什么是这样的结果了矩阵，向量，标量之间的导数
我们仅仅看分子布局(Numerator layout)那一列
假如 $\overrightarrow{a}=\begin{bmatrix} a_1 & a_2 &\cdots &a_m \end{bmatrix}^T$ ,向量 $\overrightarrow{a}$ 和向量 $\overrightarrow{x}=\begin{bmatrix} x_1 & x_2 &\cdots &x_n \end{bmatrix}^T$ 一点关系没有.
那么求导的结果就是 $m\times n$ 的零矩阵. $\overrightarrow{x}$ 对自身求导的结果是单位矩阵.这两个就不写出来了，我们下面看一下后两个，假设
$A=\begin{bmatrix} a_{11} &a_{12} &\cdots &a_{1n} \\ a_{21}& a_{22} & \cdots & a_{2n}\\ \vdots & \vdots &\cdots & \vdots\\ a_{m1} &a_{m2} &\cdots & a_{mn} \end{bmatrix}$
那么
$Ax=\begin{bmatrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_n\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_n\\ \vdots\\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n \end{bmatrix}$
此时 $\frac{\partial Ax}{\partial x}$ 就是向量对向量的导数
，按照上述步骤就是分解为 $m$ 个标量对向量的导数，
第一个标量是 $a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_n$ ，它对 $\overrightarrow{x}=\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix}$

的导数是 $\begin{bmatrix} a_{11} &a_{12} & \cdots &a_{1n} \end{bmatrix}$
看到这里大家最好拿纸笔自己推算一下。
那么自然的，就得到了
$\frac{\partial Ax}{\partial x}=\begin{bmatrix} a_{11} &a_{12} &\cdots &a_{1n} \\ a_{21}& a_{22} & \cdots & a_{2n}\\ \vdots & \vdots &\cdots & \vdots\\ a_{m1} &a_{m2} &\cdots & a_{mn} \end{bmatrix}$
这就是矩阵 $A$ .
现在再看最后一个 $\frac{\partial x^TA}{\partial x}$ ,
首先计算 $x^TA$ , $\overrightarrow{x}^T=\begin{bmatrix} x_1 & x_2 &\cdots &x_n \end{bmatrix}$ ,这里注意这里的矩阵 $A$ 和上一个不是一个矩阵，只不过用A这个符号表示这是一个矩阵。这里的矩阵 $A$ 应该等于
$A=\begin{bmatrix} a_{11} &a_{12} &\cdots &a_{1m} \\ a_{21}& a_{22} & \cdots & a_{2m}\\ \vdots & \vdots &\cdots & \vdots\\ a_{n1} &a_{n2} &\cdots & a_{nm} \end{bmatrix}$
$n\times m$ 型的矩阵。
那么 $x^TA$ 就等于
$\begin{bmatrix} a_{11}x_{1}+a_{21}x_{2}+\cdots+a_{n1}x_n\\ a_{12}x_{1}+a_{22}x_{2}+\cdots+a_{n2}x_n\\ \vdots\\ a_{1m}x_1+a_{m2}x_2+\cdots+a_{nm}x_n \end{bmatrix}$

所以 $\frac{\partial x^TA}{\partial x}$ 依旧是向量对向量的求导，我们首先看第一个标量 $a_{11}x_{1}+a_{21}x_{2}+\cdots+a_{n1}x_n$ 对 $\overrightarrow{x}$ 的导数,就是
$\begin{bmatrix} a_{11} &a_{21} & \cdots & a_{n1} \end{bmatrix}$
那么自然的
$\frac{\partial x^TA}{\partial x}=\begin{bmatrix} a_{11} &a_{21} &\cdots &a_{n1} \\ a_{12}& a_{22} &\cdots & a_{n2}\\ \vdots& \vdots&\cdots & \vdots\\ a_{1m} &a_{2m} & \cdots& a_{nm} \end{bmatrix}$
这显然就是矩阵 $A$ 的转置。(别忘了这是分子布局的情况下)
其实只要记住分子布局下标量对向量的求导形式：

$\frac{\partial y}{\partial \overrightarrow{x}}=\begin{bmatrix} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2}& \cdots& \frac{\partial y}{\partial x_n} \end{bmatrix} , \overrightarrow{x}=\begin{bmatrix} x_{1}\\ x_2\\ \vdots\\ x_n \end{bmatrix}$
后面的各种形式也就很容易理解了。