案例来源:https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247483916&idx=1&sn=a83de5391530049632ba2a0ef4d6a60b @AI100
(以下为阅读笔记,目的是便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 数据:kaggle比赛提供的描述洛瓦(Lowa)住房方方面面的特征总共有79个
2. 目标:预测亚美尼亚州洛瓦市(Ames,Lowa)的房价
3. 探索性数据分析
- 绘制各个特征的直方图,了解哪些可能是异常值。
- 基于直方图,初步了解哪些特征有效
- 由于是回归问题,多重共线性会影响预测效果。计算特征间的相关系数,找出具有较高相关性的特征
4. 特征工程
- 房屋到街道的直线距离。将房屋分组(分组依据?),组内使用中位数来填充NA
- 对于连续特征,为了使其满足线性回归所需要的线性特征、恒等方差以及正态性等,使用log(x+1)进行特征转化
- 对于一部分特征,采用“差、中等、好”来简化
5. 模型融合
- sensemble:训练xgb、lasso、ridge模型,等权重平均
- stacking:以xgb、lasso、random forest、gbm模型的输出作为新特征,以xgb作为分类器训练