一、 写在机器学习之前

1.需要明确的几点问题:

(1)算法是核心,数据和计算是基础
(2)找准定位:
2.大部分复杂的都是工程师在做,我们需要:
*分析数据
*分析具体的业务
*应用常见的算法
*特征工程、调参、优化
3.我怎么做:
(1)学会分析问题,使用机器学习算法的目的,想要算法完成何种任务。
(2)掌握算法的基本思想,学会对问题用相应算法解决
(3)利用框架和库解决问题

数据类型:

离散型数据: 由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精度。(如汽车数量)
连续型数据: 变量可以在某一长度内任取一数,即变量的取值可以是连续的,如:长度、时间、质量值等。这类整数通常是非整数,含有小数部分。

**注意:**只需记住一点,离散型区间内不可分,连续型在区间内可分。

机器学习算法的判别依据:

二、机器学习开发流程

数据来源:1.公司本身就有数据 2.合作过来的数据 3.购买数据

  • 第一步:拿到原始数据,明确问题是做什么,根据数据类型,建立模型类别(模型=算法+数据)

  • 第二步:pd对数据的基本处理

  • 第三步:特征工程(对特征进行处理)

  • 第四步:找到合适的算法去进行预测

  • 第五步:模型的评估,判定效果怎么样。
    成功–>上线使用,以API形式提供
    不成功–>换算法。如果换了很多次模型都不行,就做回去做特征工程
    写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

三、机器学习算法分类

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

监督学习

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

  • 有特征值加目标值,有目标值可以和真实的比较

分类问题

  • 类型: k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

  • 概念: 分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题变成为分类问题。最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;

  • 分类问题应用举例:

1.在银行业务中,构建一个客户分类模型,按客户按照贷款风险的大小进行分类

2.图像处理中,分类可以用来检测图像中是否有人脸出现,动物类别等

3.手写识别中,分类可以用于识别手写的数字

4.文本分类,这里的文本可以是新闻报道、网页、电子邮件、学术论文

回归问题

  • 类型: 线性回归、岭回归
  • 概念: 回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,输出是连续型的值。
  • 回归问题应用举例: 房价预测,根据某地历史房价数据,进行一个预测

金融信息,每日股票走向

标注

隐马尔可夫模型 (不做要求)

无监督学习

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

  • 只有特征值,没有目标值

聚类 k-means

四、机器学习模型是什么

写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

相关文章: