小余同学的机器学习笔记1

什么叫机器学习

大量数据输入,通过机器学习算法进行学习,最后得出一个模型,然后可以通过这个模型预测出或者得出某个样例结果。

  1. 环境
    anaconda+pycharm

  2. 相关概念
    数据整体叫数据集(data set),某一行叫样本(sample),某一列叫特征(feature),具体某一列可以叫特征向量(Xi),最后一列叫标签(label)。
    样本除开最后一列可以看成一个矩阵X,最后一列可以看成向量y。
    第i个样本写作X(i),第i个样本第j个特征写作X(i)j,第i个样本的标记写作y(i)。

  3. 监督学习

  • 分类
  • 回归

分类:
顾名思义,进行分类。分类任务本质是在特征空间(feature space)进行切分。特征可以是具体数,也可以很抽象。比如图像每一个像素点都是特征。

分类任务包括:

  • 二分类
  • 多分类
  • 多标签分类

很多问题可以进行转换。

回归:
结果是一个连续的数字,而非类别。(房屋价格,学生成绩)

  1. 机器学习方法的分类1
  • 监督学习
  • 非监督学习
  • 半监督学习
  • 增强学习

监督学习:给机器的数据拥有标签或者答案。
非监督学习:给机器输入的数据没有标签或者答案
非监督学习的意义:

  • 对没有标记的数据进行分类-聚类分析
  • 对数据进行降维处理(特征提取,特征压缩:PCA),方便可视化
  • 异常检测

半监督学习:部分数据拥有标签或者答案,另一部分没有。(各种原因产生的标记缺失)
通常用无监督学习手段对数据进行处理,之后再用监督学习进行模型训练和预测。

增强学习:从环境中学习,根据环境的反馈进行优化改进。如无人驾驶,机器人。
2020-06-02

  1. 机器学习分类2
  • 批量学习

一次输入多组数据,建立模型,之后再输入新的数据,模型不会再改变。
重新批量学习,运算量巨大;不适合变化很快的情况,如股市预测。

  • 在线学习

在线学习其实相当于批量学习的改进,可以从样例输入的输出结果,再次进行学习。
新的数据带来的变化可能不好,则需要对数据进行监控。

  • 参数学习

通过数据得到一定规律,预测参数,一旦得到了参数,就不需要原来的数据集了。比如得到了一条函数曲线。

  • 非参数学习
    1.不对模型进行过多假设
    2.非参数不等于没有参数

思考与总结:

总的来说算法没有好坏之分,只能说具体某个问题,有些算法更好一点。脱离具体问题谈没有意义。在面临具体问题时要多进行尝试,进行比较。
算法为王还是数据为王?…

相关文章:

  • 2021-07-25
  • 2021-07-03
  • 2022-12-23
  • 2021-05-29
猜你喜欢
  • 2021-10-29
  • 2022-01-17
  • 2021-09-16
  • 2021-11-08
相关资源
相似解决方案