1.9统计（stat）

1.9 统计（stat）

1.9.1 核密度估计（KDE(Kernel Density Estimation)）

由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。

参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中，人们嘉定数据分布符合某种特定的性态，如线性、指数性态等，然后在目标函数族中寻找特定的解，即确定回归模型中的未知参数。在参数判别分析中，人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距，这些方法并非总能取得令人满意的结果。针对上述缺陷，提出了非参数估计方法，即核密度估计方法。由于核密度估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法，因而在统计学理论和应用领域受到高度重视。

核密度估计（KDE(Kernel Density Estimation)）在概率论中是用来估计未知的密度函数的一种方法，属于分参数检验方法之一。主要是根据密度函数来计算集合中各个项的分布情况。其中密度函数是以各个数值为中心进行计算。所谓核密度估计，就是采用平滑的峰值函数（“核”）来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。

x1, x2......xn为独立同分布F的n个样本点，设其概率密度函数为f，核密度估计为下：

1.9统计（stat）

K(.)为核函数（非负、积分为1，符合概率密度性质，并且均值为0）。

h>0，为一个平滑参数，称作带宽(bandwidth)。

Kh(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。

核密度函数的原理比较简单，在我们知道某一事物的概率分布的情况下，如果某一个数在观察中出现了，我们可以认为这个数的概率密度很大，和这个数比较近的数的概率密度也会比较大，而那些离这个数远的数的概率密度会比较小。基于这种想法，针对观察中的第一个数，我们可以用K去拟合我们想象中的那个远小近大概率密度。对每一个观察数拟合出的多个概率密度分布函数，取平均。如果某些数是比较重要的，则可以取加权平均。需要说明的一点是，核密度的估计并不是找到真正的分布函数。

注: 核密度估计其实就是通过核函数（如高斯）将每个数据点的数据+带宽当作核函数的参数，得到N个核函数，再线性叠加就形成了核密度的估计函数，归一化后就是核密度概率密度函数了。（MLlib中，仅支持以高斯核做核密度估计）

1.9.2&1.9.3 相关性（Correlation）

相关性分析是考量两个变量之间的线性关系的一种统计方法，用语衡量两个变量因数的相关程度。但是，相关性不等于因果性。相关性有两个重要的因素：相关的方向和相关的强度，相关的方向就是正相关、负相关还是无关；相关的强度就是关联性的大小。如：身高越高，体重越重还是越轻；身高每增加1，体重增加或者减少多少。Mllib内有两种相关系数统计方法：

皮尔森（也称皮尔逊）相关系数：

全称为皮尔森积矩相关系数（Pearson Product-Moment Correlation Coefficient）。该系数广泛用于度量两个变量之间的相关程度，定义的公式如下：

1.9统计（stat）

（其中，sx, sy是x和y的样品标准偏差。）

皮尔森相关系数一般用于计算两个定距变量之间联系的紧密程度，它的取值在[-1, 1]之间，当X,Y协变时大于0，逆变时小于0.线性无关时等于0.

样本的简单相关系数一般用r表示，其中n 为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间，若r>0，表明两个变量是正相关，即一个变量的值越大，另一个变量的值也会越大；若r<0，表明两个变量是负相关，即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强，要注意的是这里并不存在因果关系。若r=0，表明两个变量间不是线性相关，但有可能是其他方式的相关（比如曲线方式）

利用样本相关系数推断总体中两个变量是否相关，可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著，则拒绝原假设，即两个变量是线性相关的；若t 检验不显著，则不能拒绝原假设，即两个变量不是线性相关的。

斯皮尔曼相关系数：

被定义成等级变量之间的皮尔森相关系数。对于样本容量为n的样本，n个原始数据被转换成等级数据，相关系数ρ为：

1.9统计（stat）

实际应用中，变量间的连结是无关紧要的，于是可以通过简单的步骤计算ρ，被观测的两个变量的等级差值，则ρ为 1.9统计（stat）

斯皮尔曼相关系数表明X(独立变量)和Y(依赖变量)的相关方向。如果当X增加时，Y趋向于增加，斯皮尔曼相关系数则为正。如果当X增加时，Y趋向于减少，斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时，斯皮尔曼相关系数会在绝对值上增加。当X和Y完全单调相关时，斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着任意两对数据Xi，Yi和Xj，Yj，有Xi−Xj和Yi−Yj总是同号。完全的单调递减关系意味着任意两对数据Xi，Yi和Xj，Yj，有Xi−Xj和Yi−Yj总是异号。

斯皮尔曼相关系数经常被称作"非参数"的。这里有两层含义。首先，当X和Y的关系是由任意单调函数描述的，则它们是完全皮尔逊相关的。与此相应的，皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次，斯皮尔曼不需要先验知识(也就是说，知道其参数)便可以准确获取XandY的采样概率分布。

1.9.4&1.9.5 假设检验（test）

（Hypothesis testing）总体的分布函数完全未知或只知形式、但不知其参数的情况，为了推断总体的某些未知特性，提出某些关于总体的假设。我们要根据样本对所提出的假设作出是接受，还是拒绝的决策。假设检验是作出这一决策的过程。卡方检验即是假设检验的一种。

卡方检验：

就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

卡方检验主要有以下两种：

皮尔森独立性检验（Pearson's independence test）

验证从两个变量抽出的配对观察值组是否互相独立，即检验两个属性之间是否相互独立。例如：例如：每次都从A国和B国各抽一个人，看他们的反应是否与国籍无关。

适度检验（Goodness of Fit test）

Goodness fo fit（适合度检验）：验证一组观察值的次数分配是否异于理论上的分配。其 H0假设（虚无假设，null hypothesis）为一个样本中已发生事件的次数分配会服从某个特定的理论分配。实际执行多项式试验而得到的观察次数，与虚无假设的期望次数相比较，检验二者接近的程度，利用样本数据以检验总体分布是否为某一特定分布的统计方法。

K-S检验：

KS-检验（Kolmogorov-Smirnov test）– 检验数据是否符合某种分布

Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|，当实际观测值D>D(n,α)则拒绝H0，否则则接受H0假设。

KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况，可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布事，KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候，KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。

注：t-检验的假设是检验的数据满足正态分布，否则对于小样本不满足正态分布的数据用t-检验就会造成较大的偏差，虽然对于大样本不满足正态分布的数据而言t-检验还是相当精确有效的手段。

返回主目录（Spark MLlib算法思想总结）

1.9统计（stat）