z1xiang

一. 准备工作

1. 定义问题,收集数据集

2. 确定衡量成功的指标

  • 对于平衡分类问题(每个类别的可能性相同),精度和ROC是常用的指标。
  • 对于类别不平衡 问题,你可以使用准确率和召回率。
  • 对于排序问题或多标签分类,你可以使用平均准确率均值。
  • 自定义衡量成功的指标也很常见。

通过衡量成功的指标指引你选择损失函数,即模型要优化什么。

损失函数需要在只有小批量数据时即可计算(理想情况 下,只有一个数据点时,损失函数应该也是可计算的),而且还必须是可微的(否则无法用反向 传播来训练网络)。

衡量成功的指标和损失函数都是用来评估一个模型好坏的一个标准。指标常用来作为结果来评估。损失函数常用来在模型训练过程中来评估,因为损失函数是可微的,所以可以通过反向传播来训练。

3. 确定评估方法

  • 留出验证集。数据量很大时可以采用这种方法。
  • K 折交叉验证。如果留出验证的样本量太少,无法保证可靠性,那么应该选择这种方法。
  • 重复的 K 折验证。如果可用的数据很少,同时模型评估又需要非常准确,那么应该使用这种方法。

二. 特征工程

4. 数据预处理

  1. 收集数据

  2. 导入数据

  3. 合并数据、缺失值清洗等

5. 特征表示

要将数据集中的数据特征表示成计算机能够理解的数值形式。常用的表示方法是局部表示和分布式表示。

6. 传统的特征学习(表示学习)

特征选择

常用的特征:

  • 从数据集中选择合适的特征;
  • 自行设计特征:由多个特征合成的一个新特征(例如:长度*宽度=面积,面积作为新特征);
  • 多项式特征:一个特征经过运算,如x: x2,x1/2

特征抽取

好的特征可以极大提高分类器的性能. 因此,要取得好的预测效果,需要将样本的原始特征向量

分类:

技术点:

相关文章: