1 模型训练、预测及线下验证
数据划分:
- 训练集、线下验证集、线下测试集、线上测试集
- 无时序的数据集:简单划分、交叉验证划分等
- 有时序的数据集:需考虑时序、nested交叉验证划分等
模型选择 - 依据在验证集上的效果选择
- 除了关注效果的均值,还要关注稳健性
- 还需考虑线上效果;可将线上效果视为一折数据
参数调优 - 不建议将精力放在参数调优上;容易过拟合
- 大体的设置参数即可
- 应将精力重点放在特征工程;其次是模型融合
2 常用的回归模型
模型参数的设置
- 不建议将精力放在调参;黔驴技穷时再调参
- 仅需大体的设置主要参数即可
- 例如,Xgboost,learning_rate=0.1,nround =200, max_death =6
3 模型融合
主要策略
- 加权:算数平均数,几何平均数,调和平均数等
- Stacking:交叉验证;类似于深度学习
- Blending:简单划分数据集;相当于只做Stacking的一折
- 模型平均
- 时序方法/模型与机器学习的融合
- …