一. 准备工作
1. 定义问题,收集数据集
2. 确定衡量成功的指标
- 对于平衡分类问题(每个类别的可能性相同),精度和ROC是常用的指标。
- 对于类别不平衡 问题,你可以使用准确率和召回率。
- 对于排序问题或多标签分类,你可以使用平均准确率均值。
- 自定义衡量成功的指标也很常见。
通过衡量成功的指标指引你选择损失函数,即模型要优化什么。
损失函数需要在只有小批量数据时即可计算(理想情况 下,只有一个数据点时,损失函数应该也是可计算的),而且还必须是可微的(否则无法用反向 传播来训练网络)。
衡量成功的指标和损失函数都是用来评估一个模型好坏的一个标准。指标常用来作为结果来评估。损失函数常用来在模型训练过程中来评估,因为损失函数是可微的,所以可以通过反向传播来训练。
3. 确定评估方法
- 留出验证集。数据量很大时可以采用这种方法。
- K 折交叉验证。如果留出验证的样本量太少,无法保证可靠性,那么应该选择这种方法。
- 重复的 K 折验证。如果可用的数据很少,同时模型评估又需要非常准确,那么应该使用这种方法。
二. 特征工程
4. 数据预处理
-
收集数据
-
导入数据
-
合并数据、缺失值清洗等
5. 特征表示
要将数据集中的数据特征表示成计算机能够理解的数值形式。常用的表示方法是局部表示和分布式表示。
6. 传统的特征学习(表示学习)
特征选择
常用的特征:
- 从数据集中选择合适的特征;
- 自行设计特征:由多个特征合成的一个新特征(例如:长度*宽度=面积,面积作为新特征);
- 多项式特征:一个特征经过运算,如x: x2,x1/2。
特征抽取
好的特征可以极大提高分类器的性能. 因此,要取得好的预测效果,需要将样本的原始特征向量