1.1 箱型图
1.五数概括:极大值;极小值;上四分位点;下四分位点;中位数
箱型图构造:箱子部分(上下四分位点,实线中位数,虚线均值)
箱子两触角:
箱型图可用于比较不同批量数据:
1.2 直方图
直方图是对核密度的估计,核密度估计可以对数据整体分布有很好认识。
h最优值:除了h影响直方图形状外,起始点x0也影响直方图形状。——移动平均直方图
1.3 核密度
用平滑的函数代替直方图的箱子
常见核函数:
带宽h决定了密度估计函数的平滑程度,确定方法:交叉确认方法和参考合理的参照分布来计算。
1.3 散点图
绘制两个或三个变量对应数值所决定数据点的图形。
二维散点图:直线分割
三维散点图:平面分割
散点图矩阵:反应不同变量之间的散点图
1.5 切诺夫—夫洛瑞脸谱图
高维数据的图像化表示。
1.6 安德鲁曲线
将高维数据表示为函数曲线来表述。
1.为什么使用该函数表示?
首先,该函数是傅里叶序列函数,任何函数均可展成傅里叶序列函数,因此使用该函数;其次,该函数属于三角函数,图像呈现出在一定范围内变化,这样就更有利于在有限值域内展示不同数据的差别;最后是函数图像是波动曲线,有高峰低峰,这样就更能显示出不同数据之间的差异性。
2.变量的优先顺序会影响到函数的图像,决定最优顺序方法是主成分分析。
1.7 平行坐标图
横轴:表示六个不同的维度:这里表示钞票的六个不同度量指标
纵轴:经过量化处理的观察值
1.8 波士顿住房
平行坐标图:分析所有不同变量与待分析变量的大致关系
散点图矩阵:分析每一个变量与待分析变量的关系