ChevisZhang

1. 离散化

  a) 无序变量离散化—— OneHotEncoder

  b)有序变量离散化

    等宽划分:按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。

    等频划分:将数据分成几等份,每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频划分。

    聚类划分:使用聚类算法将数据聚成几类,每一个类为一个划分。

  内容来自 https://www.cnblogs.com/jiaxin359/p/8574510.html

 

 内容来自 https://www.cnblogs.com/xingnie/p/12264505.html

2. 缺失值处理

  # 考虑全空才删,还是空一个就删

  df.dropna(how = ,axis = )

  # 用什么(平均值)填充空值

  df.fillna()

df[\'Exterior_Color\'].fillna(method=\'ffill\') #前向填补
df[\'Exterior_Color\'].fillna(method=\'bfill\') #后向填补
df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补
df.Mileage.fillna(df.Mileage.median()) #中位数填补

3. 重复值处理

  df.xxx.drop_duplicates()

4. 异常值处理

  

# 剔除户主姓名,户主身份证号和年龄有缺失的样本
df.dropna(axis = 0,how=\'any\',subset=[\'户主姓名\',\'户主身份证号\',\'age\'],inplace = True) #1代表列,0代表行,只要有缺失,就删除这一行,基于三个变量
 

 https://blog.csdn.net/lyxleft/article/details/84325697#%E8%81%9A%E9%9B%86

5.聚集

6.抽样

7.降维

8.特征子集

9..特征创建

10。变量变换

 

分类:

技术点:

相关文章:

  • 2022-12-23
  • 2021-10-19
  • 2021-08-17
  • 2021-11-23
  • 2021-11-23
猜你喜欢
  • 2021-12-22
  • 2021-11-11
  • 2021-12-22
  • 2021-12-10
  • 2021-12-10
相关资源
相似解决方案