写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

一、写在机器学习之前

1.需要明确的几点问题：

（1）算法是核心，数据和计算是基础
（2）找准定位：
2.大部分复杂的都是工程师在做，我们需要：
*分析数据
*分析具体的业务
*应用常见的算法
*特征工程、调参、优化
3.我怎么做：
（1）学会分析问题，使用机器学习算法的目的，想要算法完成何种任务。
（2）掌握算法的基本思想，学会对问题用相应算法解决
（3）利用框架和库解决问题

数据类型：

离散型数据： 由记录不同类别个体的数目所得到的数据，又称计数数据，所有这些数据全部都是整数，而且不能再细分，也不能进一步提高他们的精度。（如汽车数量）
连续型数据： 变量可以在某一长度内任取一数，即变量的取值可以是连续的，如：长度、时间、质量值等。这类整数通常是非整数，含有小数部分。

**注意：**只需记住一点，离散型区间内不可分，连续型在区间内可分。

机器学习算法的判别依据：

二、机器学习开发流程

数据来源：1.公司本身就有数据 2.合作过来的数据 3.购买数据

第一步：拿到原始数据，明确问题是做什么，根据数据类型，建立模型类别（模型=算法+数据）
第二步：pd对数据的基本处理
第三步:特征工程（对特征进行处理）
第四步：找到合适的算法去进行预测
第五步：模型的评估，判定效果怎么样。
成功–>上线使用，以API形式提供
不成功–>换算法。如果换了很多次模型都不行，就做回去做特征工程

三、机器学习算法分类

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

监督学习

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

有特征值加目标值，有目标值可以和真实的比较

分类问题

类型： k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
概念： 分类是监督学习的一个核心问题，在监督学习中，当输出变量取有限个离散值时，预测问题变成为分类问题。最基础的便是二分类问题，即判断是非，从两个类别中选择一个作为预测结果；
分类问题应用举例：

1.在银行业务中，构建一个客户分类模型，按客户按照贷款风险的大小进行分类

2.图像处理中，分类可以用来检测图像中是否有人脸出现，动物类别等

3.手写识别中，分类可以用于识别手写的数字

4.文本分类，这里的文本可以是新闻报道、网页、电子邮件、学术论文

回归问题

类型： 线性回归、岭回归
概念： 回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系，输出是连续型的值。
回归问题应用举例： 房价预测，根据某地历史房价数据，进行一个预测

金融信息，每日股票走向

标注

隐马尔可夫模型 (不做要求)

无监督学习

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

只有特征值，没有目标值

聚类 k-means

四、机器学习模型是什么

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

目录

一、 写在机器学习之前

数据类型：

二、机器学习开发流程

三、机器学习算法分类

监督学习

分类问题

回归问题

标注

无监督学习

四、机器学习模型是什么

一、写在机器学习之前