2020-06-02 - 爱码网

什么叫机器学习

大量数据输入，通过机器学习算法进行学习，最后得出一个模型，然后可以通过这个模型预测出或者得出某个样例结果。

环境
anaconda＋pycharm
相关概念
数据整体叫数据集(data set），某一行叫样本（sample），某一列叫特征（feature），具体某一列可以叫特征向量(Xi)，最后一列叫标签（label）。
样本除开最后一列可以看成一个矩阵X,最后一列可以看成向量y。
第i个样本写作X(i)，第i个样本第j个特征写作X(i)j，第i个样本的标记写作y(i)。
监督学习

分类：
顾名思义，进行分类。分类任务本质是在特征空间(feature space)进行切分。特征可以是具体数，也可以很抽象。比如图像每一个像素点都是特征。

分类任务包括：

很多问题可以进行转换。

回归：
结果是一个连续的数字，而非类别。(房屋价格，学生成绩)

监督学习：给机器的数据拥有标签或者答案。
非监督学习：给机器输入的数据没有标签或者答案
非监督学习的意义：

半监督学习：部分数据拥有标签或者答案，另一部分没有。(各种原因产生的标记缺失)
通常用无监督学习手段对数据进行处理，之后再用监督学习进行模型训练和预测。

增强学习：从环境中学习，根据环境的反馈进行优化改进。如无人驾驶，机器人。
2020-06-02

一次输入多组数据，建立模型，之后再输入新的数据，模型不会再改变。
重新批量学习，运算量巨大;不适合变化很快的情况，如股市预测。

在线学习其实相当于批量学习的改进，可以从样例输入的输出结果，再次进行学习。
新的数据带来的变化可能不好，则需要对数据进行监控。

通过数据得到一定规律，预测参数，一旦得到了参数，就不需要原来的数据集了。比如得到了一条函数曲线。

思考与总结：

总的来说算法没有好坏之分，只能说具体某个问题，有些算法更好一点。脱离具体问题谈没有意义。在面临具体问题时要多进行尝试，进行比较。
算法为王还是数据为王？…