一、 写在机器学习之前
1.需要明确的几点问题:
(1)算法是核心,数据和计算是基础
(2)找准定位:
2.大部分复杂的都是工程师在做,我们需要:
*分析数据
*分析具体的业务
*应用常见的算法
*特征工程、调参、优化
3.我怎么做:
(1)学会分析问题,使用机器学习算法的目的,想要算法完成何种任务。
(2)掌握算法的基本思想,学会对问题用相应算法解决
(3)利用框架和库解决问题
数据类型:
离散型数据: 由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精度。(如汽车数量)
连续型数据: 变量可以在某一长度内任取一数,即变量的取值可以是连续的,如:长度、时间、质量值等。这类整数通常是非整数,含有小数部分。
**注意:**只需记住一点,离散型区间内不可分,连续型在区间内可分。
机器学习算法的判别依据:
二、机器学习开发流程
数据来源:1.公司本身就有数据 2.合作过来的数据 3.购买数据
-
第一步:拿到原始数据,明确问题是做什么,根据数据类型,建立模型类别(模型=算法+数据)
-
第二步:pd对数据的基本处理
-
第三步:特征工程(对特征进行处理)
-
第四步:找到合适的算法去进行预测
-
第五步:模型的评估,判定效果怎么样。
成功–>上线使用,以API形式提供
不成功–>换算法。如果换了很多次模型都不行,就做回去做特征工程
三、机器学习算法分类
监督学习
- 有特征值加目标值,有目标值可以和真实的比较
分类问题
-
类型: k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
-
概念: 分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题变成为分类问题。最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;
-
分类问题应用举例:
1.在银行业务中,构建一个客户分类模型,按客户按照贷款风险的大小进行分类
2.图像处理中,分类可以用来检测图像中是否有人脸出现,动物类别等
3.手写识别中,分类可以用于识别手写的数字
4.文本分类,这里的文本可以是新闻报道、网页、电子邮件、学术论文
回归问题
- 类型: 线性回归、岭回归
- 概念: 回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,输出是连续型的值。
- 回归问题应用举例: 房价预测,根据某地历史房价数据,进行一个预测
金融信息,每日股票走向
标注
隐马尔可夫模型 (不做要求)
无监督学习
- 只有特征值,没有目标值
聚类 k-means