01_机器学习基本概念

1，机器学习能做什么
①统计学习
②数据挖掘
③模式识别
④计算机视觉
⑤语音识别
⑥自然语言处理

传统的机器学习
**监督学习：**从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。分类就是典型的有监督学习
**无监督学习：**输入数据没有被标记，也没有确定的结果。聚类是典型的无监督学习
人工智能：
深度学习，强化学习，迁移学习
2，机器学习的一般流程
①数据预处理
②特征工程
③机器学习模型训练
④模型评估

2-1,数据集
一组数据的集合被称为数据集，用户模型训练的数据集叫训练集，用户测试的数据集叫测试集。一个数据集包含多条数据，一条数据包含多个属性
2-2，泛化能力
值机器学习通过训练集进行模型的训练之后，对于未知的输入的准确判断能力
2-3，维度、特征
例如商品的，三级分类，库存，销售额等等就是唯独，也叫特征值
3，过拟合和欠拟合
**欠拟合：**根本原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大，可以通过增加特征维度来解决
**过拟合：**根本原因是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果较差，解决一般有2个途径：减少特征维度，可以人工选择保留的特征或者模型选择算法；正则化，保留所有的特征通过降低参数θ的值，来影响模型
4，模型和学习
模型就是复杂的数学相关函数，只是该函数具有很多的未知的参数，通过训练集训练来确定模型中的参数，生成的已知参数的函数就是模型。就是一种映射
学习就是根据业务数据构建模型的过程
5，查全率（召回率）Recall，查准率（正确率）Precision，F1值
例如某鱼塘1400鲤鱼，300虾，300鲫鱼。补鲤鱼为目的，逮住700鲤鱼，200虾，100鲫鱼
召回率=700/1400=50%
正确率=700/(700+200+100)=70%
F1=召回率×正确率×2/（正确率+召回率）=0.7×0.5×2/（0.7+0.5）=58.3%
综合评价指标，F-measure
01_机器学习基本概念
当参数α=1时，就是最常见的F1.因此，F1综合了P和R的结果，当F1值较高时则能说明实验方法比较有效
6，几个误差
均方误差MSE：Mean Squared Error
均方误差是值参数估计值与参数真实值之差平方的期望值
MSE可以评价数据的变化成都，MSE的值越小，说明预测模型描述实验数据具有更好的精确度
01_机器学习基本概念
MAE：Mean Absolute Error
平均绝对误差是绝对误差的平均值

fi表示预测值，yi表示真实值
可以更好的反应预测值误差的实际情况
SD:standard Deviation
标准差：方差的算数平方根，可以反应一个数据集的离散程度
01_机器学习基本概念

7，关于Spark Mlib