第一次任务 - 爱码网

第一部分—统计学基本知识梳理

这一部分是关于统计学的基本知识，离散变量的概率分布，其中离散变量的概率分布包括：二项分布、泊松分布。

信息图形化

图形是发现数据隐含模式的一种有效方法，通过图形，数据得以直观的体现。基本的图表形式如下：

饼图：每个扇形的大小代表你所展示的每组数据的相对频率，一般早在对基本比例进行比较时较为有效，所使用的数据为不同组别。
条形图：条形图中的每一个长方形代表一个特定类，长方形的长度代表某种数值。长方形越大，数值越大，包括垂直条形图和水平条形图，处理的数据为类别数据；
直方图：直方图与条形图外观相似，但有两个区别：每个长方形的面积与频数成比例，图上的长方形没有间隔，处理的数据为数值型数据；
箱型图：箱形图，也叫盒须图，盒式图，boxplot，箱型图能够做到：直观明了地识别数据批中的异常值，利用箱线图判断数据批的偏态和尾重，利用箱线图比较几批数据的形状；
相关资料详情请参考：https://blog.csdn.net/qq_40587575/article/details/80215776

几种常见的统计量

从一大堆数字中看出模式和趋势颇为不易，而求出平均值往往是把握全局的第一步。有了平均数就能迅速的找出数据中最具代表性的数值，得出重要结论。常见的统计量包括：
1.均值：其与平均数不是同一个统计量，平均数包括均值，均值的计算方法是：
第一次任务
当一组数据相差不大时，使用均值能较好的表示数据的总体情况，但数据中一旦存在异常值时，均值将会出现偏差；
2.中位数：当偏斜数据和异常值出现时，我们采用除了均值以外的另一个平均数，将数据升序排列，然后取中间的数，如果有奇数个数，则中位数为位于中间的数值，如果有偶数个数，则将中间两个数相加，然后除以2；
3.众数：如果数据看上去体现了多种趋势或多批数据，那么我们就需要为每一批数据给出一个众数。众数是一组数据中出现次数最多的数值。
4.全距：也叫极差，可以衡量数据的分散情况，计算方法是：用数据集中的最大数减去数据集中的最小数。全距仅仅描述了数据的宽度，并没有描述数据在上下界之间的分布。
5.四分位数：为了消除异常值的影响，采用四分位数，其将数据一分为四，最小的四分位数下四分位数（Q1），最大的四分位数称为上四分位数（Q3），中间的四分位数为中位数，四分位距=上四分位数—下四分位数。
6.方差：能够度量数据的变异性，公式：
第一次任务
7.标准差：方差开根号就是标准差。除了基本公式以外，还有一个方差速算法：