数据样本抽样

样本具有代表性(比例保持一致)
样本比例平衡以及样本不平衡时如何处理
尽量使用全量数据Hadoop spark

1.异常值(空值)处理

1.识别异常值和重复值
Pandas:isnull()/duplicated
2.直接丢弃
Pandas:drop()/dropna()/drop_duplicated()
3.异常值(空值)处理
当是否有异常当作一个新的属性,代替原值
Pandas:fillna()
4.集中值指代
Pandas:fillna()
5.边界值指代
Pandas:fillna()
6.差值
Pandas:interpolate()–Series

2.特征与处理–标注(Label)

反应目的的,不容易获得的,我们关注的,和其他数据相关的属性。

特征选择

剔除与标注不相关或者冗余的特征
1.数据规约的思路之一(另一个思路为抽样)
特征选择(之前有讲过)
2.包裹思想(RFE算法)
数据分析与数据挖掘实践(6)--数据清洗
数据分析与数据挖掘实践(6)--数据清洗
嵌入思想
数据分析与数据挖掘实践(6)--数据清洗

特征变换

对值化,离散化,数据平滑,归一化(标准化),数值化,正规化

特征降维

特征衍生

相关文章:

  • 2021-11-22
  • 2021-07-11
  • 2021-06-04
  • 2021-11-13
  • 2022-01-13
猜你喜欢
  • 2021-12-10
  • 2022-01-30
  • 2022-01-20
  • 2021-06-06
  • 2021-06-22
  • 2021-12-14
  • 2021-04-08
相关资源
相似解决方案