1、数据预处理

主要包括

特征提取

处理缺失数据

数据定标

数据转换: One-Hot encoding, One/Two/MultiGram, Bag of words, 取对数

•1、特征提取:

  • a、以基于图像进行行人检测为例, 需要提取图像的梯度直方图
  • b、以自然语言处理为例, 需要提取文字的n-gram,其实就是将文字转换成数字形式,然后通过计算句子各个单词同时出现的概率(通过历史训练的数据得到各个单词间两两同时存在的概率)

使用条件概率公式p(S)=p(w1​w2​⋯wn​)=p(w1​)p(w2​∣w1​)⋯p(wn​∣wn−1​wn−2​)计算概率值,具体看下面链接内容

如下博客对n-gram描述得比较细致:https://blog.csdn.net/songbinxu/article/details/80209197

2、数据预处理之处理缺失数据

Titanic数据集为例, 部分乘客的年龄, 80%乘客的仓位有缺失

处理方式:

1. 使用均值或者中间值(median)代替数值类型(年龄)的缺失数据

2. 使用众数(mode)代替分类数据(性别)的缺失数据

3. 使用聚类的方式, 找到相似的数据点, 使用这些相似数据点的均值等替代缺失数据

4. 如果某一个特征的数据丢失率太高, 直接丢弃这个特征的数据也许更好

3、数据预处理之数据定标

1)

Normalization/Min-Max-Scaler (归一化)

轻量级学习系列--2、机器学习数据清理

 

Standardization (标准化)

轻量级学习系列--2、机器学习数据清理

2)也可以使用降维处理,或者通过坐标轴向量转换

轻量级学习系列--2、机器学习数据清理

经过转换之后就可以比较清晰直观观测到数据间的区别

4、数据转换: One-Hot encoding

轻量级学习系列--2、机器学习数据清理

相关文章:

  • 2021-04-06
  • 2021-04-28
  • 2021-11-17
  • 2021-12-15
  • 2021-08-27
  • 2021-10-30
猜你喜欢
  • 2022-02-03
  • 2021-07-12
  • 2021-12-22
  • 2022-01-02
  • 2021-09-29
  • 2021-05-06
  • 2021-04-21
相关资源
相似解决方案