问题:宝可梦cp值预测
step1:线性模型,输入feature为上一代的cp值
step2: Loss Function(均方误差)
参数w和b取不同值时的均方误差,紫色代表误差很小,红色代表误差很大:
step 3: Loss Function最小化(Gradient Descent),得到Best Function,可看作得到最优参数。
梯度下降:梯度是上升最快的方向,负梯度就是下降最快的方向:
增加线性回归的阶数,模型更复杂,对于训练集的学习也更准确。
更复杂的模型在training data 上表现更好,但是在testing data上不一定,可能会发生Overfitting!!!
模型改进:Redesign the model,包括特征选择,模型复杂度设置等
Loss Function改进:增加正则项,使模型更加smooth
随着正则项权重的增大,training data的训练误差逐渐变大,testing data的预测误差先变小后变大:
总结:这节课通过宝可梦的案例,直观的展示了机器学习的一般步骤,同时通过对模型进行不断改进,介绍了梯度下降(gradient descent)、过拟合(overfitting)、Regularization(正则项)等概念。