我的数据挖掘之旅-统计学基础

序言：
很早就开始关注居士老师的公众号了，但是自己也懒，很多文章都没有看完，最近居士老师组织人一起系统学习数据挖掘，希望这次可以和大家共同进步。

甜点：
统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。
大部分的数据分析，都会用到统计方面的以下知识，可以重点学习：
一：数据的集中趋势：
1、数值型数据：中位数、众数、平均数、极差、分位数、方差、标准差、极差、平均值、算术平均数、加权平均值、几何平均值
2、顺序数据：四分位数
3、分类数据：异众比率
4、相对离散程度:离散系数
5、分布的形状：偏态系数、峰态系数
三：概率分布：
几何分布、二项分布、泊松分布、正态分布等
四：总体和样本：
了解基本概念，抽样的概念
五：置信区间与假设检验：
如何进行验证分析
六：相关性与回归分析：
一般数据分析的基本模型

通过基本的统计量，就可以更多元化实现可视化，进而实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算，或者python、R里面一些对应的可视化方法。有了总体和样本的概念，你就知道在面对大规模数据的时候，怎样去进行抽样分析。你也可以应用假设检验的方法，对一些感性的假设做出更加精确地检验。利用回归分析的方法，你可以对未来的一些数据、缺失的数据做基本的预测。

正菜：
本文算是一个知识点汇总，不做细致展开，让大家了解统计学有哪几大块，每一类分别用于什么样的分析场景。

一、数据的集中趋势
1.众数
出现频率最高的数；
2.中位数
把样本值排序，分布在最中间的值；
样本总数为奇数时，中位数为第(n+1)/2个值；
样本总数为偶数时，中位数是第n/2个，第(n/2)+1个值的平均数；
3.平均数
所有数的总和除以样本数量；
现在大家接触最多的概念应该是平均数，但有时候，平均数会因为某些极值的出现收到很大影响。举个小例子，你们班有20人，大家收入差不多，19人都是5000左右，但是有1个同学创业成功了，年入1个亿，这时候统计你们班同学收入的“平均数”就是500万了，这也很好的解释了，每年各地的平均收入数据出炉，小伙伴们直呼给祖国拖后腿了，那是因为大家收入被平均了，此时，“中位数”更能合理的反映真实的情况；
4.方差
在统计描述中，方差用来计算每一个变量（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式：
我的数据挖掘之旅-统计学基础
5、分位数

二、正态分布
1.定义：随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ,σ⊃2;)
随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内；
有95.4%的概率位于距离均值μ有2个标准差σ内；
有99.7%的概率位于距离均值μ有3个标准差σ内；
我的数据挖掘之旅-统计学基础
三、抽样分布
1.中心极限定理
设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n。
举个例子：
48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。
我的数据挖掘之旅-统计学基础
三、假设检验

1.问题：什么是显著性水平？
显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.

2. 如何选择备选检验和零假设？
一个研究者想证明自己的研究结论是正确的，备择假设的方向就要与想要证明其正确性的方向一致；
同时将研究者想收集证据证明其不正确的假设作为原假设H0