目录
概率与统计的关注点
概率统计与机器学习的关系
- 统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。
- 训练与预测过程的一个核心评价指标就是模型的误差。
- 误差本身就可以是概率的形式,与概率紧密相关。
- 对误差的不同定义方式就演化成了不同损失函数的定义方式。
-
机器学习是概率与统计的进阶版本。(不严谨的说法)
重要统计量
期望
期望可以理解为平均值或加权平均
方差
样本的离散程度
协方差
评价两个随机变量的关系
独立和不相关
协方差的意义
协方差应用到机器学习中
两个特征是否相关
协方差可以用来降维
Cov(x, y) 只评估特征和标签的关系时如果=0,说明无关,可以直接不要了,降维
Pearson相关系数
越近1越相关,如果样本非常大,则可以通过这个挑选
协方差矩阵
相关系数矩阵
越红越负相关,越蓝越正相关,0则基本不相关
留下为0的,去掉红和蓝的相关一个样本
评价特征相关性的意义是筛选特征
特征1体积,特征2质量
如果两个是正相关,则我们可以只考虑一个特征就可以了
要尽可以用相互独立的特征
再谈独立与不相关
矩
统计参数的总结