华为云HCIA-AI学习记录004-机器学习的整体流程(下)

华为云HCIA-AI学习记录004-机器学习的整体流程(下)
有监督学习
学习阶段——》预测阶段
什么是好的模型？
泛化能力：
能否在实际的业务数据也能准确预测
可解释性
预测的结果是否容易被解释
预测速率
每条数据的预测需要多长时间
可塑性
实际业务过程中数据量可能很大，随着业务量增大，预测的速率是否仍然可以接受
模型的有效性
泛化能力：
机器学习的目标是使学得的模型能够很好的适用于新的样本，而不是仅仅在训练样本上工作的很好，学得的模型适用于新样本的能力称为泛化能力，也称为鲁棒性。
误差:
学习到的模型在样本上的预测结果与样本的真实结果之间的差。
训练误差：模型在训练集上的误差。
泛化误差：在新样本上的误差，显然我们更希望得到泛化误差小的模型。
欠拟合：如果训练误差很大的现象。
过拟合：如果学得的模型训练误差很小，而泛化能力较弱即泛化误差较大的现象。
模型的容量：
指其拟合合作函数的能力，也称为模型的复杂度。
容量不足的模型不能解决复杂任务，可能出现欠拟合。
容量高的模型能够解决复杂的任务，但是其容量高于任务所需时，有可能会过拟合。
过拟合的原因-误差
最终预测的总误差=偏差²+方差+不可消解的误差
预测误差总的来说可以被拆解出两种主要的子形式：
来源于“偏差”的误差
来源于“方差”的误差
方差（Variance）:
模型的预测结果在均值附近的偏移的篇幅
来源于模型在训练集上对小波动的敏感性的误差
偏差（Bias）：
模型的预期（或平均）预测值与我们试图预测的正确值之间的差异。
以以下四种形式表示了方差与偏差不同组合方式：
低偏差&低方差=》好模型：都在中心，也很集中
低偏差&高方差=》一般模型：点在需要区域，比较分散（过拟合）
高偏差&低方差=》一般模型：点很集中，但不在需要的区域。
高偏差&高方差=》不良模型：既不集中也不在需要的区域（欠拟合）

机器学习的性能评估-分类

术语
P：正元组，感兴趣的主要类的元组。
N：负元组，其它元组。
TP：真正例。被分类器正确分类的正元组。
TN：真负例。被分类器正确分类的负元组。
FP：假正例。被错误地标记为正元组的负元组。
FN：假负例。被错误地标记为负元组的正元组。

度量	公式
准确率	(TP+TN）/（P+N)
错误率	（FP+FN)/(P+N)
召回率（recall)	TP/P
真负例率	TN/N
精度（precision)	TP/(TP+FP)
F1值，精度和召回率的调和均值	（2precisionrecall/（precision+recall）
Fβ值，其中β是非负实数	（1+β²）precisionrecall/β²*precision+recall