机器学习基本概念

机器学习与数据挖掘息息相关,可用人脑模拟机器学习的过程。人类通过眼睛捕捉外界信息在大脑中形成图像信息,在大脑加工后再具体反映至具体动作。而当今的深度学习是早期的神经网络,类比人脑处理过程,其简单流程可分为:输入层 —> 隐藏层 —> 输出层 。

机器学习可大致分为监督学习与无监督学习两大类:
监督学习: 一般适用于分类问题(即所研究的数据带有标签)
无监督学习:一般适用于聚类问题(数据不带标签,例如散点数据,可实现回归预测等)

常见的三类问题:回顾、分类、聚类
回归问题:连续型数据。一般可用于预测数据等。
分类问题:类别型数据,并且数据类型已知。
聚类问题:类别型数据,并且数据类型未知。

如图为聚类问题的一种情况:
机器学习入门笔记(一)
在具体数据处理过程中一般分为训练集验证集测试集
而在实际过程中,往往将验证集与测试集统一合为测试集,因此最终只有训练集测试集。训练集用于训练模型,测试集用于测试训练所得的模型。

一元线性回归

一元线性回归问题中,数据最终在坐标轴上可近似用一条直线拟合。将该直线设为:hθ(x)h_θ(x)=θ0θ_{0}+θ1θ_{1}x 也将该直线称为回归线。
为了衡量拟合直线的优劣,在该情况下引入代价函数

J(θ\theta0_{0},θ\theta1_{1})=12m\frac{1}{2m}i=1m\sum_{i=1}^{m}(yihθ(xi))2(y^{i}-h_\theta(x^{i}))^{2}

即J(θ0,θ1\theta_{0},\theta_{1})为该一元线性函数的代价函数,当J的值最小时的θ0,θ1\theta_{0},\theta_{1}即为符合的截距与斜率。(该方法为最小二乘法)
机器学习入门笔记(一)
而线性相关的强度用相关系数衡量:
rxyr_{xy}=i=1m(xix)(yiy)i=1m(xix)2(yiy)2\frac{\sum_{i=1}^{m} (x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{m}(x_{i}-\overline{x})^{2}(y_{i}-\overline{y})^{2}}

梯度下降法

梯度下降法基本步骤为:
(1)初始化θ0\theta_{0}θ1\theta_{1}的值,并确定迭代步数与步长(学习率)。
(2)对该位置进行求导,得到该点的梯度。
(3)用公式更新θ0\theta_{0}θ1\theta_{1}
(4)迭代上述步骤。

同步更新:
temp0temp_{0}=θ0\theta_{0}-α\alpha θ0\frac{\partial}{\partial\theta_{0}} J(θ0,θ1\theta_{0},\theta_{1})
temp1temp_{1}=θ1\theta_{1}-α\alpha θ1\frac{\partial}{\partial\theta_{1}} J(θ0,θ1\theta_{0},\theta_{1})
θ0=temp0;θ1=temp1\theta_{0}=temp_{0} ; \theta_{1}=temp_{1}

其中α\alpha为步长(学习率),为正值。

相关文章: