机器学习项目完整的工作流程

一. 准备工作

1. 定义问题，收集数据集

2. 确定衡量成功的指标

对于平衡分类问题(每个类别的可能性相同)，精度和ROC是常用的指标。
对于类别不平衡问题，你可以使用准确率和召回率。
对于排序问题或多标签分类，你可以使用平均准确率均值。
自定义衡量成功的指标也很常见。

通过衡量成功的指标指引你选择损失函数，即模型要优化什么。

损失函数需要在只有小批量数据时即可计算(理想情况下，只有一个数据点时，损失函数应该也是可计算的)，而且还必须是可微的(否则无法用反向传播来训练网络)。

衡量成功的指标和损失函数都是用来评估一个模型好坏的一个标准。指标常用来作为结果来评估。损失函数常用来在模型训练过程中来评估，因为损失函数是可微的，所以可以通过反向传播来训练。

3. 确定评估方法

留出验证集。数据量很大时可以采用这种方法。
K 折交叉验证。如果留出验证的样本量太少，无法保证可靠性，那么应该选择这种方法。
重复的 K 折验证。如果可用的数据很少，同时模型评估又需要非常准确，那么应该使用这种方法。

二. 特征工程

4. 数据预处理

收集数据
导入数据
合并数据、缺失值清洗等

5. 特征表示

要将数据集中的数据特征表示成计算机能够理解的数值形式。常用的表示方法是局部表示和分布式表示。

6. 传统的特征学习(表示学习)

特征选择

常用的特征：

从数据集中选择合适的特征；
自行设计特征：由多个特征合成的一个新特征(例如：长度*宽度=面积，面积作为新特征)；
多项式特征：一个特征经过运算，如x: x²，x^1/2。

特征抽取

好的特征可以极大提高分类器的性能. 因此，要取得好的预测效果，需要将样本的原始特征向量

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode