一些数学基础知识

____tz_zs笔记

学习人工智能需要的数学基础（某次课记下的笔记）

1.线性代数

2.微积分

极值，优化问题，偏导数，梯度...

3.凸优化/计算方法

书籍：“凸优化”凸优化（中文版）.pdf

4.概率论与数理统计

假设检验，概率分布，贝叶斯理论，极大似然估计...

马尔可夫链蒙特卡洛（Markov chain Monte Carlo / MCMC）

译文：马尔可夫链蒙特卡罗方法的零算法简介

翻译：一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

整理的其他笔记：一些数学基础知识归纳

正比例（direct proportion）两种相关联的量，一种量变化，另一种量也随着变化，如果这两种量相对应的两个数的比值（也就是商）一定，这两种量就叫做成正比例的量，它们的关系叫做成正比例关系。【关系式：x/y=k（k为常数）应用科学：数学】

反比例（Inverse proportion），指的是两个相关联的变量，一个量随着另一个量的增加而减少或一个量随着另一个量的减少而增加，且它们的乘积一定是个常数。这两种量叫做成反比例的量，这两种量的关系叫做反比例关系。【关系式：xy=k（k为常数，k≠0）应用科学：数学】

一些数学基础知识

线性关系（linear relation，别名：正比例关系）两个变量之间存在一次方函数关系，就称它们之间存在线性关系。更通俗一点讲，如果把这两个变量分别作为点的横坐标与纵坐标，其图象是平面上的一条直线，则这两个变量之间的关系就是线性关系。即如果可以用一个二元一次方程来表达两个变量之间关系的话，这两个变量之间的关系称为线性关系，因而，二元一次方程也称为线性方程。推而广之，含有n个变量的一次方程，也称为n元线性方程，不过这已经与直线没有什么关系了。【基本表达式：y=kx+b (k，b为常数) 所属领域：数理科学】

回归分析(regression analysis)、回归方程（regression equation）、简单线性回归(Simple Linear Regression)、多重线性回归(Multiple linear regression，MLR)、逻辑回归(Logistic Regression)、梯度下降（gradient decent)、皮尔逊相关系数 (Pearson Correlation Coefficient)、R平方值

最小二乘法（Least squares，又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。其最重要的应用是在数据拟合上，最小二乘法的最佳拟合是指残差（残差为：观测值与模型提供的拟合值之间的差距）平方总和的最小化。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
最小二乘法的问题可分为两类：线性或普通的最小二乘法，和非线性的最小二乘法，这取决于残差在所有未知数中是否为线性的。线性的最小平方问题发生在统计回归分析中；它有一个闭式解(解析解)。非线性的问题通常经由迭代优化来解决；在每次迭代中，系统都近似于一个线性系统，因此在这两种情况下核心演算是相同的。

最大似然估计（Maximum Likelihood Estimate, MLE）一种重要而普遍的求估计量的方法。最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

极大似然估计 http://blog.csdn.net/tz_zs/article/details/78747582

最大似然估计(Maximum likelihood estimation) http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html

最大似然估计和最小二乘法怎么理解？ https://www.zhihu.com/question/20447622/answer/36744589

概率论之概念解析：极大似然估计《Probability concepts explained: Maximum likelihood estimation》

机器之心 | 专知

本文是数据科学家Jonny Brooks-Bartlett概率论基础概念系列博客中的“极大似然估计”一章，主要讲解了极大似然估计的若干概念。分别介绍了参数、直观理解极大似然估计、极大似然估计计算方法、极大似然估计与最小二乘法的区别、极大似然与极大概率的区别。

机器学习非凸优化技术

方差（variance）

定义：数据与平均数之差平方和的平均数

方差（variance）是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差是各个数据与平均数之差的平方的和的平均数,即

一些数学基础知识

其中，x表示样本的平均数，n表示样本的数量，xi表示个体，而s^2就表示方差。

参考：

定义

简化计算公式

公式简化及变形的证明

对数(logarithm)

如果a的x次方等于N（a>0，且a不等于1），那么数x叫做以a为底N的对数（logarithm），记作x=logaN。其中，a叫做对数的底数，N叫做真数。

1.特别地，我们称以10为底的对数叫做常用对数（common logarithm），并记为lg。
2.称以无理数e（e=2.71828...）为底的对数称为自然对数（natural logarithm），并记为ln。
3.零没有对数。

4.在实数范围内，负数无对数。在复数范围内，负数是有对数的。

运算法则：

一些数学基础知识

推导公式：一些数学基础知识

对数函数

定义

函数一些数学基础知识叫做对数函数（logarithmic function），其中x是自变量。对数函数的定义域是。

函数基本性质

1、过定点(1,0) ，即x=1时，y=0。

2、当 0＜a＜1时，在(0，+∞)上是减函数；当a＞1时，在(0，+∞)上是增函数。

对数曲线

一些数学基础知识

一些数学基础知识 ·

数学期望

数学期望的含义是什么？http: //www.qbiao.com/19043.html

矩阵，数组，向量

矩阵是一个数学概念（线性代数里的），数组是个计算机上的概念，矩阵作为一种变换或映射算子的体现，矩阵运算有着明确而严格的数学规则。

在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合，最早来自于方程组的系数和常数所构成的方阵。

由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：

一些数学基础知识

这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的（i，j）元，以数aij为（i ，j）元的矩阵可记为（aij）或（aij）m×n，m×n矩阵A也记作Amn。

元素实数的矩阵称为实矩阵，的英文元素复数的矩阵称为复矩阵。而行数与列数都等于Ñ的矩阵称为Ñ阶矩阵或Ñ阶方阵

数组（ array ）是用于储存多个相同类型数据的集合。数组是在程序设计中，为了处理方便，把具有相同类型的若干元素按无序的形式组织起来的一种形式。可以用相同名字引用一系列变量，并用数字（索引）来识别它们。在许多场合，使用数组可以缩短和简化程序，因为可以利用索引值设计一个循环，高效处理多种情况。

特点：1数组是相同数据类型的元素的集合0.2数组中的各元素的存储是有先后顺序的，它们在内存中按照这个先后顺序连续存放在一起0.3数组元素用整个数组的。名字和它自己在数组中的顺序位置来表示。例如，一个[0]表示名字为一个的数组中的第一个元素，A [1]代表数组一个的第二个元素，以此类推。

一些数学基础知识

在数学中，向量（也称为欧几里得向量、几何向量、矢量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的只有大小，没有方向的量叫做数量（物理学中称标量）。在如R、VB、C、C++、或者其他编程语言中的向量，就是一个存放数据的地方，类似于一维数组和链表。

数量积（dot product; scalar product，标量积，也称为点积，内积，向量的积）用于向量相乘，表示为c = a · b，a与b均为向量，c为标量。

在数学中，数量积是接受在实数R的上两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。