人工智能之数学基础知识（一）

一、函数

常见函数
- 常函数：$y=C$
- 一次函数：$y=ax+b$
- 二次函数：$y=ax^2+bx+c$
- 幂函数：$y=x^a$
- 指数函数：$y=a^x$
- 对数函数：$y=log_a(x)$
反函数

若函数$f:D\rightarrow f(D)$，它存在逆映射$f^{-1}:f(D)\rightarrow D$，则此映射$f^{-1}$，称为函数$f$的反函数。

\[y=x^3\Rightarrow x=y^\frac{1}{3} \]
- 性质
  1. 函数$f(x)$与其反函数$f^{-1}(x)$关于直线$y=x$对称。
  2. 函数与它的反函数单调性相同。
复合函数

\[(f\omicron g)=f[g(x)] \]
三角函数

\[y=sinx\\y=cosx\\y=tanx\\ y=cotx\\secx=\frac{1}{cosx}\\ cscx=\frac{1}{sinx} \]
反三角函数

\[y=arcsinx\\ y=arccosx\\ y=arctanx\\ y=arccotx\\ \]

二、极限

数列极限

\[n>N ,\qquad |x_n-a|<\epsilon\\ \displaystyle \lim_{n\to \infty}\,x_n=a \qquad or \qquad x_n \rightarrow a(n \rightarrow\infty). \]

说明
1. $\epsilon$ 是任意的。
2. $N$是相应于$\epsilon$的，只要$N$存在，而不必找其最小值
例：已知$x_n=\frac{n+(-1)^n}{n}$,证明数列$\{x_n\}$的极限为1。

\[ |x_n-1|=\left|\frac{n+(-1)^n}{n}-1\right|=\frac{1}{n}\\ 取N=\frac{1}{\epsilon},当n>N时\\ \left|\frac{n+1(-1)^n}{n}-1 \right|<\epsilon\\ 故：\displaystyle \lim_{n \to \infty}x_n = \displaystyle \lim_{n \to \infty}\frac{n+1(-1)^n}{n}=1 \]

三、函数的极限

自变量

\[1.x\rightarrow x_0 \qquad x\rightarrow x_0^+ \qquad x \rightarrow x_0^-\\ 2.x \rightarrow \infty \qquad x \rightarrow +\infty \qquad x\rightarrow -\infty \]

定义
性质
- 定理1（函数极限唯一性）
- 定理2（函数极限的局部有界性）
- 定理3（函数极限的局部保号性）
- 准则1（两边夹）
  - $y_n\leq x_n\leq z_n$:$\displaystyle \lim_{n\rightarrow \infty}y_n=a,\ \displaystyle \lim_{n\rightarrow \infty}z_n =a:\ \displaystyle \lim_{n\rightarrow \infty}x_n=a$
- 两个重要的极限
  - $\displaystyle \lim_{x\to 0}\frac{sinx}{x}=1$（两边夹）
  - $\displaystyle \lim_{x \to \infty}(1+\frac{1}{x})^x=e \ or \ \displaystyle \lim_{x \to \infty}(1+x)^{\frac{1}{x}}=e$(两边夹、变量代换法)

四、导数

定义

\[\displaystyle \lim_{x \to x_0}\frac{f(x)-f(x_0)}{x-x_0}=\displaystyle \lim_{\Delta x \to x_0}\frac{\Delta y}{\Delta x}\\ y\'|_{x=x_0}= f\'(x_0)=\frac{dy}{dx}\left|_{x=x_0} \right|=\displaystyle \lim_{\Delta x \to x_0}\frac{\Delta y}{\Delta x}\\ \]

基本初等函数导数公式

\[ (C)\'=0 \qquad (x^n)\'=nx^{n-1}\\ (sinx)\'=cosx \qquad (cosx)\'=-sinx\\ (tanx)\'=sec^2x \qquad (cotx)\'=-csc^2x\\ (secx)\'=secx\,tanx \qquad (cscx)\'=-cscx\,cotx\\ (a^x)\'=a^xlna \qquad (e^x)\'=e^x\\ (log_ax)\'=\frac{1}{xlna} \qquad (lnx)\'=\frac{1}{x}\\ (arcsinx)\'=\frac{1}{\sqrt{1-x^2}} \qquad (arccosx)\'=-\frac{1}{\sqrt{1-x^2}} \\ (arctanx)\'=\frac{1}{1+x^2} \qquad (arccotx)\'=-\frac{1}{1+x^2}\\ \]

求导法则

\[(u\pm v)\'=u\'\pm v\'\\ (Cu)\'=Cu\'\\ (uv)\'=u\'v+uv\'\\ (\frac{u}{v})\'=\frac{u\'v-uv\'}{v^2}\\ [f^-1(x)]\'=\frac{1}{f(x)} \ or \ \frac{dy}{dx}=\frac{1}{\frac{dx}{dy}}\\ f[g(x)]\'=\frac{dy}{dx}=\frac{dy}{dg(x)}\cdot \frac{dg(x)}{dx}=f(x)\'\cdot g(x)\'\\ \]

高阶导数

\[y\'\'=(y\')\' \ or \ \frac{d^2y}{dx^2}=\frac{d}{dx}\cdot (\frac{dy}{dx})\\ y\'\'\', \ y^{(4)}, \frac{d^ny}{dx^n} \]

导数的应用
- 函数的单调性
  
  单调性：导数大于0，单调递增；小于0，单调递减；等于0为驻点。
  
  驻点：导数为零的点。
  
  极值点：区间上导数都大于零之后区间上又小于零，则这个点为极大值点；反之为极小值点。
- 曲线凹凸性
  
  $f\'\'(x)>0$,f(x)的曲线上是凹的。
  $f\'\'(x)<0$,f(x)的曲线上是凸的。
- 函数极值与最值
  
  $f(x)<f(x_0)$：极大值；$f(x)>f(x_0)$：极小值；$f(x_0)=0$：驻点。
  
  极值存在：左右单调性不同；函数在驻点处的二阶可导，$f\'\'(x_0)>0,x_0$为极小值点，$f\'\'(x_0)<0,x_0$为极大值点，等于0时不能判断。
- 求极值的步骤
  
  1.确定函数的定义域；2.求导数$f\'(x)$；3.求定义域内部的极值嫌疑点（驻点和一阶导数不存在的点）；4.两个判别的方法。

五、泰勒公式

泰勒公式是用一个函数在某点的信息描述其附近取值的公式。

Taylor公式-余项

\[f(x)=\displaystyle \sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k+R_n(x) \]

佩亚诺（Peano）余项

\[ R_n(x)=o[(x-x_0)^n] \]

拉格朗日（Lagrange）余项

\[ R_n(x)=f^{(n+1)}[x_0+\theta(x-x_0)]\frac{(x-x_0)^n+1}{(n+1)!} \]

几个常见的初等函数带有佩亚诺余项的麦克林公式：

\[ e^x=1+x+\frac{1}{2!}x^2+\ldots + \frac{1}{n!}x^n + o(x^n)\\ sinx = x-\frac{1}{3!}x^3 + \ldots + \frac{(-1)^{m-1}}{(2m-1)!}x^{2m-1}+o(x^{2m-1})\\ cosx = 1-\frac{1}{2!}x^2 +\frac{1}{4!}X^4 - \ldots + \frac{(-1)^m}{(2m)!}x^{2m}+o(x^{2m})\\ ln(1+x)=x-\frac{1}{2}x^2+\frac{1}{x^3}- \ldots + \frac{(-1)^{n-1}}{n}x^n+o(x^n)\\ \frac{1}{1-x} = 1+x+x^2+ \ldots + x^n + o(x^n)\\ (1+x)^m=1+x+\frac{m(m-1)}{2!}x^2+\ldots +\frac{m(m+1)\ldots (m-n+1)}{n!}x^n+o(x^n) \]

Taylor公式应用1
- 展开三角函数$y=sin(x)\\$

\[ sin(x)=x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +(-1)^{2m-1}\frac{x^{2m-1}}{(2m-1)!}+R_{2m-1}(x) \]

Taylor公式应用2
- 计算近似值$e=\displaystyle\lim_{x \to \infty}\left(1+\frac{1}{n}\right)^n$，并计算估计差值

\[ e^x\approx\displaystyle\sum_{k=0}^n\frac{e^{x_0}}{k!}(x-x_0)^k\Rightarrow(令x_0=0) \Rightarrow e^x \approx 1+X+\frac{X^2}{2!}+ \ldots + \frac{x^n}{n!} \Rightarrow \\令X=1 \Rightarrow e \approx 1+1+\frac{1}{2!}+ \ldots +\frac{1}{n!}\Rightarrow n=1 \Rightarrow e \approx 2.7182815\\ 估计差值：\delta=|R_{10}|=1+\frac{1}{2!}+\ldots = 1(1+\frac{1}{12}+\frac{1}{12\times13}+\ldots)\\<1(1+\frac{1}{12}+\frac{1}{12^2}+\ldots)=\frac{12}{11\times11!}=2.73\times10^{-8} \]

六、多元函数

二元函数的定义
- $z=f(x,y) \ or \ p(x,y),z=f(p)$
多元函数的极限

\[ |f(P)-A|=|f(x,y)-A|<\epsilon\\ \displaystyle\lim_{x\to x_o,{y\to y_0}}f(x,y)=A\\ \displaystyle f(x,y)_{{x,y}\to {x_0,y_0}} \rightarrow A\\ or \quad \displaystyle \lim_{P \to P_0}f(P)=A \]

多元函数偏导数

$f\'x(x_0,y_0)$
对x的偏导数：$\frac{\partial f}{\partial x}|_{{x=x_0},{y=y_0}}$;
对x的偏导数：$\frac{\partial f}{\partial y}|_{{x=x_0},{y=y_0}}$;

三元函数$u=f(x,y,z)$在$P(x_0,y_0,z_0)$分别对自恋量进行偏导数

\[ f_x(x_0,y_0,z_0)=\displaystyle \lim_{\Delta x \to 0}\frac{f(x_0+\Delta x, y_0,z_0)-f(x_0,yx_0,z_0)}{\Delta x}\\ \ldots \]

高价偏导数
- 二阶

\[ \frac{\partial}{\partial x}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z}{\partial x^2}=f\'\'_{xx}=f\'\'_{11}\\ \frac{\partial}{\partial y}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z}{\partial y^2}=f\'\'_{yy}=f\'\'_{22}\\ \frac{\partial}{\partial x}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z}{\partial x \partial y}=f\'\'_{xy}=f\'\'_{12}\\ \frac{\partial}{\partial x}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z}{\partial y \partial x}=f\'\'_{yx}=f\'\'_{21} \]

七、线性代数

线性：在数学可以理解为一阶导数为常数的函数；

线性代数中的基本量：向量；向量与向量之间的线性关系的是映射。

向量
- 向量：指具有n个相互独立的性质（维度）的对象的表示；
- 向量的模：向量的大小；
- 单位向量：长度为一个单位的向量；
向量的运算
- 向量的加减法：平行四边形法则和三角形法则:$\vec{a}+\vec{b}=(x_1+x_2,y_1+y_2)$
- 数乘：实数与向量相乘是一个向量,向量的伸长或压缩:$\lambda \vec{a}=(\lambda x_1,\lambda y_1)$。
- 数量积(内积，点积)：两向量乘在乘它们的夹角，结果为数：$\vec{a}\cdot\vec{b}=|\vec{a}|\times|\vec{b}|\times cos\theta$
- 向量积(外积，叉积)：两个不共线非零向量所在平面的一组法向量，结果是向量:$|\vec{a}\times\vec{b}|=|\vec{a}|\times|\vec{b}|\times sin\theta$
方向导数

\[若函数f(x,y,z)在点P(x,y,z)处没方向l(方向角为\alpha,\beta,\gamma)存在下列极限：\\ \displaystyle\lim_{\rho \to 0}\frac{\Delta f}{\rho}=\displaystyle\lim_{\rho \to 0}\frac{f(x+\Delta x,y+\Delta y,z+\Delta z)-f(x,y,z)}{\rho}\\ \rho = |\Delta \vec{l}|=\sqrt{(\Delta x)^2+(\Delta y)^2+(\Delta z)^2}\\ \Delta x = \rho cos\alpha,\qquad\Delta y=\rho cos\beta, \qquad \Delta z=\rho cos\gamma \]

\[若函数f(x,y,z)在点P(x,y,z)处可微，则函数沿任意方向l的方向导数存在，且有\\ \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos\alpha+\frac{\partial f}{\partial y}cos\beta +\frac{\partial f}{\partial z}cos\gamma \]
梯度（gradient）的概念及计算

在空间上的一个点有无数个可以确定的方向，一个多元函数在某个点也有无限多个方向导数；其中最大的一个直接反映了函数在这个点的变化率的数量级，描述这个最大方向的导数及其所沿方向的矢量，就是梯度。

\[\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos\alpha+\frac{\partial f}{\partial y}cos\beta +\frac{\partial f}{\partial z}cos\gamma\\ 令向量\vec{G}=\left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}, \frac{\partial f}{\partial z}\right)\\ \vec{l^0}=(cos\alpha,cos\beta,cos\gamma)\\ \frac{\partial f}{\partial l}=\vec{G}\cdot \vec{l^0}=|\vec{G}|cos(\vec{G},\vec{l^0})\qquad (|\vec{i^0}|=1)\\ 当\vec{l^0}与\vec{G}的方向一致时，方向导数取得最大值：\\ max(\frac{\partial f}{\partial l})=|\vec{G}|\qquad 变化率最大\\ \]
- 梯度定义
\[ grad\,f=\left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z}\right)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}+ \frac{\partial f}{\partial z}\vec{k}\\ 说明：方向导数就是梯度在该方向上的投影 \]
正交向量

如果两个向量的点积为零，称为正交向量；它们在二维/三维空间上两个向量垂直

矩阵
- 矩阵：描述线性代数中线性关系的参数，矩阵是一个线性变换，可将一些向量转换为另一些向量。

\[ A=\left\{\begin{matrix} a_{11} & a_{12} & \ldots & a_{1n} \\ a_{21} & a_{22} & \ldots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \ldots & a_{mn} \\ \end{matrix}\right\} \]

- 方阵：行列相等
- 负矩阵
- 上三角矩阵
- 下三角矩阵
- 对角矩阵：对角上元素相等不为零，其它均为零。
- 单位矩阵：特殊的对角矩阵，对角线上为1
- 零矩阵：里面的元素均为零
矩阵的运算：
- 加减法：对应元素相加减 $c_{ij}=a_{ij}\pm b_{ij}$
- 运算律：交换律$A+B=B+C$；结合率：$(A+B)+C=A+(B+C)$
- 数乘：$c_{ij}=\lambda a_{ij}$；结合律：$(\lambda u)A=\lambda (uA)$；分配律：$\lambda (A+B)=\lambda A + \lambda B$
- 矩阵与向量乘法：$\vec{y}=A\vec{x}$
\[ A=\left\{\begin{matrix} a_{11} & a_{12} & \ldots & a_{1n} \\ a_{21} & a_{22} & \ldots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \ldots & a_{mn} \\ \end{matrix}\right\}\times \vec{x}= \left\{\begin{matrix} x_{11} \\ x_{21}\\ \vdots \\ x_{n1} \\ \end{matrix}\right\}\\ y_i = \displaystyle\sum_{j=1}^na_{ij}x_j \]
- 矩阵与矩阵A的列数B的行数为s：$c_{ij}=\displaystyle\sum_{k=1}^sa_{ik}b_{kj}$；两矩阵的顺序是关键；不满足交换律
矩阵的转置:
- 行列相互交换$A=A^T$
- 运算：$(A^T)^T=A;(\lambda A)^T=\lambda A^T;(AB)^T=B^TA^T;(A+B)^T=A^T+B^T$
方阵行列式
- $|A|\qquad or\qquad det(A)$
- 1x1方阵：$A=(a_{11})\qquad |A|=a_{11}$
- 2x2方阵：$|A|=a_{11}\times a_{22}-a_{12}\times a_{21}$
- nxn方阵：
\[r_i =\displaystyle\prod_{k=1}^ia_{k(n+k-i)}*\displaystyle\prod_{k=i+1}^na_{k(k+1)}\\ l_i=\displaystyle\prod_{k=1}^ia_{k(i-k+1)}*\displaystyle\prod_{k=i+1}^na_{k(n-k+i+1)}\\ |A|=\displaystyle\sum_{i=1}^nr_i-\displaystyle\sum_{i=1}^nl_i \]
代数余子式：？
伴随矩阵$A^*$:？矩阵里的矩阵
方阵的逆$A^{-1}=\frac{1}{|A|}A^*$：

\[设A是数域上的一个阶方阵，若在相同的数域存在另一个n阶方阵B，使得AB=BA=E，\\那么B为A的逆矩阵，而A被称为可逆矩阵或非奇异矩阵。如果A不存在逆矩阵，那么A\\称为奇异矩阵。A的逆矩阵记作：A^{-1}\\ 性质：\\ 唯一性\\ (A^{-1})^{-1}=A\\ (A^T)^{-1}=(A^{-1})^T\\ AB=AC \Rightarrow B=C\\ |A|\neq 0 \]
- 运算规律:$A$ 可逆
  1. $(A^{-1})^{-1}=A$
  2. $(kA)^{-1}=\frac{1}{k}A^{-1}$
  3. $(AB)^{-1}=B^{-1}A^{-1}$
  4. $(A^T)^{-1}=(A^{-1})^T$
  5. $|A^{-1}|=\frac{1}{|A|}$
矩阵的初等变换
- 一、消元法解线性方程组
  1. 交换两行；
  2. 不等于0的数乘某一行的所有元素；
  3. 把某一行所有元素的k倍回到另一行对应的元素上去;
  4. 变换的矩阵称为等价：1.自反性；2.对称性；3.传递性
  - 行阶梯矩阵
  - 行最简形矩阵
  - 定理1
    
    \[ A经过一系列初等变换为B，则有可逆矩阵P，使得PA=B;\\ PA=B有PA=B,PE=P，E为A的行最简矩阵\\ P(A,E) = (B,P)有（A,E）等价(B,P) \]
- 矩阵的秩
  
  1.在m*n的矩阵A 中任取k行k列，不改变这$K^2$个元素的在A中的次秩，得到k阶方阵，称为矩阵A的k阶子式。
  mxn阶矩阵A的k阶子式有$C_m^kC^k_n$个。
  
  设在矩阵A中有一个不等于零的r阶子式D，且有r+1阶子式，全等于零，那么D称为矩阵A的取高阶非零子式，r称为矩阵A的秩，$R(A)=r$
  - n*n的可逆矩阵，秩为n
  - 可逆矩阵又称满秩矩阵
  - 矩阵的秩等于它行（列）向量组的秩
  - 初等变换不改变矩阵的秩
向量的线性表示
1. 向量组$A:a_1,a_2,\ldots,a_n$,表达示：$\beta=k_1a_1+k_2a_2+\ldots+k_na_n(k_i\in R)$;
\[ \beta=\left[\begin{matrix} a_{1} & a_{2} & \ldots & a_{n} \\ \end{matrix}\right] \left[\begin{matrix} \lambda_{1} \\ \lambda_{2} \\ \vdots \\ \lambda_{n} \\ \end{matrix}\right]\\ \beta=x_1a_1+x_2a_2+\ldots+x_na_n \]
1. 向量组$B：\beta _1,\beta _2, \ldots,\beta _n$;$\qquad A:a_1,a_2 \ldots ,a_n$
\[\beta _1 = c_{11}a_1 +c_{21}a_2+\ldots+c_{p1}a_p\\ \beta _2 = c_{12}a_1 +c_{22}a_2+\ldots+c_{p2}a_p\\ \ldots\\ \beta _q = c_{1q}a_1 +c_{2q}a_2+\ldots+c_{pq}a_p\\ [\beta _1,\beta _2, \ldots,\beta _q]=[a_1,a_2 \ldots ,a_n]\left[\begin{matrix} c_{11} & c_{12} & \ldots & c_{1q} \\ c_{21} & c_{22} & \ldots & c_{2q} \\ \vdots & \vdots & \ddots & \vdots \\ c_{p1} & c_{p2} & \ldots & c_{pq} \\ \end{matrix}\right]_{p\times q}\\ AX=B \]
1. 向量组$B：\beta _1,\beta _2, \ldots,\beta _n$;$\qquad A:a_1,a_2 \ldots ,a_n$之间可以相互表示，则称这两个向量组等价。
\[\]
1. 向量组$A:a_1,a_2 \ldots ,a_n$线性相关的充要条件是矩阵$A=(a_1,a_2 \ldots ,a_n)$的秩小于向量数；线性无关，矩阵的秩等于向量个数；
- 对称矩阵：$A=A^T;a_{ij}=a_{ji}\quad$；一定是方阵；
线性方程组

\[ a_{11}x_1 +c_{12}x_2+\ldots+c_{1n}x_n=b_1\\ a_{21}x_1 +c_{22}x_2+\ldots+c_{2n}x_n=b_2\\ \ldots\\ a_{m1}x_1 +c_{m2}x_2+\ldots+c_{mn}x_n=b_m\\ 1.AX=b \]

定理一 n元齐次线性方程组Ax=0有非零解的充要条件是$R(A)<n$.当 m<n 时，齐次线性方程组$A_{m\times n}x=0$，一定有非零解。

n元线性方程组$Ax=b$;

无解的充要条件是$R(A)<R(A,b)$;

有唯一解的充要条件是$R(A)=R(A,b)=n$;

有无穷多解的充要条件是$R(A)=R(A,b)>n$.

特征值和特征向量

A为n价矩阵，若数$\lambda$和n维非0列向量x满足$Ax=\lambda x$，那么$\lambda$为A的特征值。A为$\lambda$的特征向量。并且$|\lambda E-A|$叫做A的特征多项式。当特征多项式等于0，叫特征方程，它是齐次性方程，求特征值就是求特征方程的解。
可对角化矩阵

\[P^{-1}A=\Lambda \]
- 可以对角化判断：
- 1. 由$|A-\lambda E|=0$,求出所有特征值
- 1. 所有特性值都是单根，则A一定能对角化
- 1. A的特征值是重根，对每个$\lambda _i$,求齐次线性方程组$(A-\lambda_i E)X=0$的基础解系，若基础解系所含向量的个数等于$\lambda _i$的重根或等于$n-R(A-\lambda _iE)$,则A可以对角化且这些基础解系排成的矩阵为相似变换矩阵。
正定矩阵

对于n阶方阵A，若任意向量x不等于0,都有$x^TAx>0$，则称矩阵A为正定矩阵。若$x^TAx\geq 0$,则矩阵A为半正定矩阵。

奇异矩阵
- 若方阵A的行列式的值等于0，奇异矩阵。
- 可逆矩阵就是非奇异矩阵，非奇异矩阵也是可逆矩阵。
- 若A为奇异矩阵，则Ax=0有无穷解。
正交矩阵
- 若n阶方阵A满足$A^TA=E$,正交矩阵
- 充要条件：列（行）向量都是单位向量，且两两相交。
- 若A为正交矩阵，x为向量，则Ax称为正交变换。
- 性质：正交矩阵的逆矩阵也是正交矩阵；两正交矩阵相乘为正交矩阵。
QR分解（正交三角分解）
- 对于m*n的列满秩矩阵A，必有$A_{m*n}=Q_{m*n}\cdot R_{m*n}$
- Q为正交矩阵，R为非奇异上三角矩阵，当要求R的对角线元素为正的时候，分解唯一。
- QR分解常用于求A的特征值、A的逆、最小二乘等问题。
- 施密特正交化过程（把线性无关组化为正交组）
SVD
- 奇异值分解
- 假设A为一个m*n阶的实矩阵，则存在一个分解使得：
\[A_{m*n}=U_{m*m}B_{m*n}V_{n*n}^T \]

八、概率论

基本概念
- 排列数
  
  从m个不同元素中取出n个元素，并按照一定顺序排成一列，叫做从m个不同元素中取出n个元素的一个排列。记作：
\[A(m,n)=A_m^n=\frac{m!}{(m-n)!} \]
- 组合数
  
  从m个不同元素中取出n个元素的所有组合的个数，叫做从m个不同元素中取出n个元素的组合数，记作：
\[C(m,n)=C_m^n=\frac{m!}{(m-n)!\cdot n!} \]
- 古典概率
\[P(A)=\frac{a}{a+b} \]
- 联合概率
  
  表示两个事件共同发生的概率，事件A和事件B的共同概率。
\[ P(AB) \]
- 条件概率
  
  事件A在另一个事件B已经发生下发生概率。
  特性：非负性、可列性、可加性
\[P(A|B)=\frac{P(AB)}{P(B)} \]
- 多个事件的条件概率
  
  假设$A_1,A_2,\cdots,A_n$为n个任意事件，而且$P(A_1A_2\cdots A_n)>0$,则：
\[P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1A_2\cdots A_{n-1}) \]
- 全概率公式
  
  样本空间$\Omega$有一组事件$A_1,A_2,\cdots,A_n$，如果事件满足$任意i\neq j \in \{1,2,\cdots,n\},A_iA_j=\empty \quad A_1\cap A_2\cdots \cap A_n=\Omega$；设事件$\{A_j\}$是样本空间$\Omega$的一个划分，且$P(A_i)>0$，那么对于任意事件B，全概率公式为：
\[P(B)=\displaystyle\sum_{i=1}^nP(A_i)P(B|A_i) \]
- 贝叶斯公式
\[P(A|B)=\frac{P(B|A)P(A)}{P(B)} \]
- 设$A_1,A_2\cdots A_n$是样本空间$\Omega$的一个划分，如果对任意事件B而言，有P(B)>0,那么：
\[P(A_i|B)=\frac{P(B,A_i)}{P(B)}=\frac{P(A_i)\cdot P(B|A_i)}{\displaystyle\sum_{j=1}^nP(A_j)\cdot P(B|A_j)} \]
- 事件独立性
  
  给定事件A、B两个事件，如果概率存在P(A,B)=P(A)P(B),则事件A和B相互独立。那么：P(A|B)=P(A),P(B|A)=P(B)
随机变量及其分布
- 离散型随机变量
  1. 定义：随机变量X的取值是有限个或无穷个。
  2. 分布律：$P\{X=x_n\}=P_n,\quad$(n=1,2, ...)
  3. 分成律的性质：$P_n\geq0$；$\displaystyle\sum_nP_n=1$
- Bernoulli分布(二点分布)
  
  \[P\{X=k\}=p^k(1-p)^{1-k},k=0,1\\ P(A)=p,(\overline{A}=1-p =q) \]
- 二项分布
\[P\{X=k\}=C_n^kp^k(1-p)^{n-k}\quad(k=0,1,2,\cdots,n)\\ P(A)=p,\quad P(\overline{A})=1-p=q \]
- Poisson分布
- Paisson定理：设在Bernoulli试验中，以$p_n$代表事件A在试验中发生的概率，它的试验总数n有关，如果：
\[\displaystyle\lim_{n\to \infty}np_n=\lambda >0则：\\ \displaystyle\lim_{n \to \infty}C_n^kp_n^k(1-p_n)^{n-k}=\frac{\lambda ^k}{k!}e^{-\lambda}\quad (k=0,1,2,\cdots) \]

\[P\{X=k\}=\frac{\lambda ^k}{k!}e^{-\lambda}\quad (k=0,1,2,\cdots) \]
- 几何分布
\[P\{X=k\}=q^{k-1}p \quad(k=1,2,\cdots) \]
- 超几何分布
\[P\{X=k\}=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}\quad (k=1,2,\cdots min(M,n)) \]
连续型随机变量

\[F(x)=\int_{a}^bf(t)dt= F(a)-F(b) \]
- $f(x)$：概率密度
\[任意区间G:\\ P\{X\in G\}=\displaystyle\int_Gf(x)dx \]
- 均匀分布
\[f(x)=\frac{1}{b-a}\quad a\leq x \leq b \]
- 指数分布
\[f(x)=\lambda e^{-\lambda x}\quad x >0 \]
- 正态分布
\[f(x)=\frac{1}{\sqrt{2\pi \sigma}}e^{\frac{(x-\mu)^2}{2\sigma}}\qquad (-\infty<x<+\infty)\\ \mu = 0,\sigma=1\Rightarrow标准正态分布 \]

九、数字特征

期望
- 期望(mean)也就是均值，是概率加权下的“平均值”，是每次可能结果的概率乘以其结果的总和，反映的是随机变量平均取值大小。常用$\mu$表示
\[连续性：E(X)=\int_{-\infty}^\infty xf(x)dx\\ 离散型：E(X)=\displaystyle\sum_ix_ip_i\\ E(X+Y)=E(X)+E(Y)\\ X和Y相互独立：E(XY)=E(X)E(Y) \]
方差
- 方差(variance)是衡量随机变量或一组数据时离散程度的度量，是用来度量随机变量和其数学期望之间的偏离程度。方差是衡量数据源数据和期望均值相差的度量值。
\[Var(X)=D(X)=\sigma^2=\frac{\sum(X-\mu)^2}{N}\\ D(X)=\displaystyle\sum_{i=1}^np_i(x_i-\mu)^2\\ D(X)=\int_a^b(x-\mu)^2f(x)dx\\ D(X)=E((X-E(X)^2))=E(X^2)-(E(X))^2\\ D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)\\ Cov(X,Y)=E\{(X-E(X))(Y-E(Y))\}\\ 不相关：D(X\pm Y)=D(X)+D(Y) \]
常见分布

分布	参数	数学期望	方差
两点分布	$0<p<1$	$p$	$p(1-p)$
分布	$n\ge 1,\\0<p<1$	$np$	$np(1-p)$
泊松公布	$\lambda >0$	$\lambda $	$\lambda$
均匀分布	$a<b$	$\frac{(a+b)}{2}$	$\frac{(b-a)^2}{12}$
指数分布	$\theta >0$	$\theta $	$\theta ^2$
正态分布	$\mu ,\sigma>0$	$\mu$	$\sigma ^2$

标准差
- 标准差：是离均值平均平方的算术平均数的平方根，用符号$\sigma$表示，其实标准差就是方差的算术平方根。
\[\sigma=\sqrt{D(X)}=\sqrt{\frac{\sum(X-\mu)^2}{N}} \]
协方差
- 协方差常用于衡量两个变量的总体误差；当两个变量相同的情况下，协方差就是方差。
\[Cov(X,Y)=E(XY)-E(X)E(Y)\\ Cov(X,Y)=Cov(Y,X)\\ Cov(aX,bY)=abCov(X,Y)\\ Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,y)\\ 若：Cov(X,Y)>0,X,Y变化趋势相同\\ Cov(X,Y)<0,变化趋势相反\\ Cov(X,Y)=0,X,Y不相关 \]
- 协方差矩阵
\[n*n的矩阵\\ c_{ij}=Cov(X_1,X_j) \]
Pearson相关系数
- 协方差可以描述X和Y的相关程序，但是协方差的值和X/Y的值采用的是不同的量纲，导致协方差在数值上表现出较大的差异，因此引入相关系数：
\[\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{D(X)\sqrt{D(Y)}}} \]
中心矩、原点矩
峰度
- 又称峰态系数(kurtosis)，表示概率密度分布曲线在平均值处峰值高低的特征数，峰度反映的是峰部的尖部。
\[计算公式：随机变量的四阶中心矩与方差平方的比值：\\ kurtosis=\frac{\displaystyle\sum_{i=1}^N(x_i-\overline{x})^4}{(N-1)\cdot s^4} \]
偏度

偏度系数(skewness)是描述分布偏离对称性程度的一个特征数

\[ 计算公式：随机变量的四阶中心矩与样本的平均离均差立方和的比值：\\ skewness=\frac{\displaystyle\sum_{i=1}^N(x_i-\overline{x})^3}{(N-1)\cdot s^3} \]

切比雪夫不等式

\[ 设随机变量X的期望为\mu ，方差为\sigma^2 ，对于任意的正数\epsilon ，有：\\ P\{|x-\mu|\geq \epsilon \}\leq \frac{\sigma ^2}{\epsilon ^3}\\ 含义：DX（方差）越小，事件\{|X-\mu|<\epsilon\}发生的概率就越大，X取的值\\基本上集中在期望\mu 附近。 \]

大数定律
- 设随机变量$X_1,X_2,\cdots ,X_n$是一列相互独立的随机变量，并且分别存在期望$E(X_k)$和方差$D(X_k)$,对于任意小和正数$\epsilon$:
\[\displaystyle\lim_{n\to \infty}P\left\{|\frac{1}{n}\displaystyle\sum_{k=1}^n X_k-\frac{1}{n}\displaystyle\sum_{k=1}^nE(X_k)|<\epsilon\right\}=1\\ 当具有相同期望\mu和方差为\sigma ^2,对随机变量的均值：Y_n=\frac{1}{n}\displaystyle\sum_{i=1}^nX_i \\ \]

\[ \]
参数估计
- 点估计
- 矩估计
- 极大似然估计法

\[\cdots \cdots\\ \cdots \cdots \]

分布	参数	数学期望	方差
两点分布	\(0<p<1\)	\(p\)	\(p(1-p)\)
分布	\(n\ge 1,\\0<p<1\)	\(np\)	\(np(1-p)\)
泊松公布	\(\lambda >0\)	$\lambda $	\(\lambda\)
均匀分布	\(a<b\)	\(\frac{(a+b)}{2}\)	\(\frac{(b-a)^2}{12}\)
指数分布	\(\theta >0\)	$\theta $	\(\theta ^2\)
正态分布	\(\mu ,\sigma>0\)	\(\mu\)	\(\sigma ^2\)