一、数据探查

1、数据量大小,足够的数据对学习效果有直接影响;

2、数据缺失或乱码,缺失和乱码影响数据质量,这种情况多的话需要进行数据清洗;

3、字段类型,不同算法对数据类型要求不一致,必要时需要进行转换;

4、是否含有目标队列,决定采用监督或无监督算法,若无目标队列可以考虑用ETL(抽取(extract)、交互转换(transform)、加载(load))操作生成。

 

二、场景抽象

机器学习主要包括如下几个场景:

1、二分类,比如商品推荐;

2、多分类,如疾病预测;

3、聚类,比如人群划分;

4、回归,股票预测;

 

三、算法选择

1、确定算法范围,通过数据类型,是否有目标队列,业务适合分类算法、聚类算法还是回归算法等判断来缩小算法范围;

2、多算法尝试,尽可能尝试多算法组合,选择最优的算法;

3、多视角分析,考虑算法的运算量,鲁棒性,资源消耗等。

相关文章:

  • 2021-11-28
  • 2021-06-22
  • 2022-12-23
  • 2021-09-23
  • 2021-10-19
  • 2021-08-16
  • 2021-05-06
猜你喜欢
  • 2021-10-09
  • 2021-05-10
  • 2022-12-23
  • 2022-12-23
  • 2021-12-08
  • 2021-04-03
  • 2021-06-20
相关资源
相似解决方案