kernel位置

COMPREHENSIVE DATA EXPLORATION WITH PYTHON
这个kernel从头到尾的分享了自己是如何选取特征的,内容还是很详实的。
总结一下:

  1. 用一张表格记录自己选择特征的一些分析信息,重要程度。
  2. 先分析目标女神
  3. 她的兴趣(与其他变量之间的关系:箱图,散点图)
  4. 相关矩阵来衡量特征之间的重要性
  5. 处理缺失值,离群值
  6. 标准化,方差齐性,线性化,缺少相关错误。这里其实没怎么看懂,有点难理解。
    每天一kernel:正太概率图
  7. 对于非数值特征,直接one-hot编码。

学习的知识点:1.正太概率论图。 2.方差齐性

先说第一点,这个概念有点点复杂,其实也好理解。
先讲出发点,目标是通过这个正态概率图,可以看出原分布和标准正态分布之间的关系。也就下面这个结果:
每天一kernel:正太概率图
怎么来的这个图呢?
我们先讲一个概念:分位数。
先将标准定义:
每天一kernel:正太概率图
每天一kernel:正太概率图
这是概率论教材里面的基本定义,我们需要明确一个基本概念就行:那就是分位数是在x上的坐标点,这些点包围住了一定的面积(也就是概率α)

我们回到如何画出正态概率图:

每天一kernel:正太概率图
每天一kernel:正太概率图
这个图开始的左上角的z应该是负号,没有打印好!
每天一kernel:正太概率图
一些个人理解:

  1. 这里的分位数,其实是下侧的。而且是等分的概率位置。
    每天一kernel:正太概率图
    所以为什么标准正态分布是一条斜线,因为每次增加的概率一样的,那么位于该区间的值出现的概率也是一样的。

  2. 纵坐标是观测值的输入,一开始排序的。

第二个知识点:方差一致性
定义:被检验的各方差在给定显著性水平在统计上没有显著性差异。
以后填坑吧,这次暂时还没有用到!

参考链接:
分位数
方差齐性
一致性检验

相关文章:

  • 2022-01-08
  • 2022-01-23
  • 2021-11-23
  • 2021-07-29
  • 2021-10-02
  • 2022-12-23
  • 2021-11-22
猜你喜欢
  • 2022-12-23
  • 2021-05-12
  • 2021-07-31
  • 2022-12-23
  • 2021-08-17
  • 2022-12-23
  • 2021-12-02
相关资源
相似解决方案