1,机器学习能做什么
①统计学习
②数据挖掘
③模式识别
④计算机视觉
⑤语音识别
⑥自然语言处理
传统的机器学习
**监督学习:**从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。分类就是典型的有监督学习
**无监督学习:**输入数据没有被标记,也没有确定的结果。聚类是典型的无监督学习
人工智能:
深度学习,强化学习,迁移学习
2,机器学习的一般流程
①数据预处理
②特征工程
③机器学习模型训练
④模型评估
2-1,数据集
一组数据的集合被称为数据集,用户模型训练的数据集叫训练集,用户测试的数据集叫测试集。一个数据集包含多条数据,一条数据包含多个属性
2-2,泛化能力
值机器学习通过训练集进行模型的训练之后,对于未知的输入的准确判断能力
2-3,维度、特征
例如商品的,三级分类,库存,销售额等等就是唯独,也叫特征值
3,过拟合和欠拟合
**欠拟合:**根本原因是特征维度过少,导致拟合的函数无法满足训练集,误差较大,可以通过增加特征维度来解决
**过拟合:**根本原因是特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果较差,解决一般有2个途径:减少特征维度,可以人工选择保留的特征或者模型选择算法;正则化,保留所有的特征通过降低参数θ的值,来影响模型
4,模型和学习
模型就是复杂的数学相关函数,只是该函数具有很多的未知的参数,通过训练集训练来确定模型中的参数,生成的已知参数的函数就是模型。就是一种映射
学习就是根据业务数据构建模型的过程
5,查全率(召回率)Recall,查准率(正确率)Precision,F1值
例如某鱼塘1400鲤鱼,300虾,300鲫鱼。补鲤鱼为目的,逮住700鲤鱼,200虾,100鲫鱼
召回率=700/1400=50%
正确率=700/(700+200+100)=70%
F1=召回率×正确率×2/(正确率+召回率)=0.7×0.5×2/(0.7+0.5)=58.3%
综合评价指标,F-measure
当参数α=1时,就是最常见的F1.因此,F1综合了P和R的结果,当F1值较高时则能说明实验方法比较有效
6,几个误差
均方误差MSE:Mean Squared Error
均方误差是值参数估计值与参数真实值之差平方的期望值
MSE可以评价数据的变化成都,MSE的值越小,说明预测模型描述实验数据具有更好的精确度
MAE:Mean Absolute Error
平均绝对误差是绝对误差的平均值
fi表示预测值,yi表示真实值
可以更好的反应预测值误差的实际情况
SD:standard Deviation
标准差:方差的算数平方根,可以反应一个数据集的离散程度
7,关于Spark Mlib