数据集

机器学习导论(二)
数据集的行----样本
数据集的列----特征
特征组成的空间----特征或属性空间
组成属性空间中的点----特征或属性向量
将数据集切分成训练集和测试集
使用训练集+算法构成模型解决实际问题
误差:
绝对误差
平方误差
训练误差:训练集
测试误差:测试集
泛化误差:新数据预测
对于非数值的特征,需要进行特征转换,编码方式有两种:标签编码和独热编码
机器学习导论(二)
注意:独热编码需要将维度扩大

对二分类问题进行评价

误差
性能矩阵(混淆矩阵)
机器学习导论(二)
准确率 Acc
精确率 Pre
真正率或召回率 Recall=Tpr
假正率 FPR
F1-Score 精确率和召回率的调和平均
ROC曲线的AUC指标

机器学习的分类

根据是否是连续值的预测,分为
1、分类问题----离散值预测,如是否买书
2、回归问题----连续值预测,如房价预测

机器学习处理问题框架

1、将数据集切分为训练集和测试集
2、通过训练集训练模型
3、通过测试集测试模型,给出评价指标

相关文章: