异常值分析

1.简单统计量分析

先做描述性统计,分析离群点

2.3σ原则

如果数据服从正态分布,则距离平均值3之外的值出现概率为P<=0.003,为极小概率事件

箱型图分析

异常值通常被定义为Ql-1.5IQR或大于Qu+1.5IQR的值
Ql称为下四分位数,表示全部观察值中有四分之一数据比他小
Qu称为上四分位数,表示全部观察值中有四分之一数据比他大
IQR称为四分位数间距,是Qu-Ql,为样本的一半

一致性分析

数据不一致性是指数据的矛盾性与不相容性,类似于一个人有两个身份证号码

数据特征分析

  • 分布分析

    • 定量数据分布分析
      • 求极差
      • 决定组距与组数
      • 决定分点
      • 列出频率分布表
      • 绘制频率分布直方图
      • 要遵循的主要原则如下:
        • 各组之间必须互斥
        • 各组之和包含所有数据
        • 各组组宽最好相等
    • 定性数据分析
      画扇形图和条形图分析
  • 对比分析

    • 绝对数比较
    • 相对数比较
      • 结构相对数,部分数值/全部数值,求比重
      • 比例相对数,同一总体内不同部分相互比较
      • 比较相对数,将同一时期两个性质相同的指标数值进行比对,说明同类现象在不同空间条件下的数量对比关系
      • 强度相对数,将两个性质不同但有一定联系的总量指标对比,说明现象的强度,密度和普遍程度
      • 计划完成相对数
      • 动态相对数,同一现象不同时期的对比
  • 周期性分析
    观察数据是否有周期性变化

  • 贡献度分析
    原理:帕累托法则,二八定律,通过绘图观察

  • 统计量分析

    • 集中趋势度量
      • 均值:
        数据分析与挖掘学习历程3
      • 中位数:
        数据分析与挖掘学习历程3
      • 众数:样本中出现次数最多的值
  • 离中趋势度量

    • 极差:
      极差 = 极大值 - 极小值
    • 标准差:
      数据分析与挖掘学习历程3
    • 变异系数:
      数据分析与挖掘学习历程3
    • 四分位数间距:
      数据分析与挖掘学习历程3
  • 相关性分析

    • 直接绘制散点图
      数据分析与挖掘学习历程3
    • 绘制散点图矩阵
      数据分析与挖掘学习历程3
  • 计算相关性系数
    • Pearson相关系数
      数据分析与挖掘学习历程3
    • Spearman秩相关系数
      数据分析与挖掘学习历程3
      数据分析与挖掘学习历程3
  • 判定系数为相关系数的平方,用r^2表示:用来衡量回归方程对y的解释程度 r^2越接近1则x与y的相关性越强,越接近0则相关性越弱

相关文章: