机器学习基本概念
机器学习与数据挖掘息息相关,可用人脑模拟机器学习的过程。人类通过眼睛捕捉外界信息在大脑中形成图像信息,在大脑加工后再具体反映至具体动作。而当今的深度学习是早期的神经网络,类比人脑处理过程,其简单流程可分为:输入层 —> 隐藏层 —> 输出层 。
机器学习可大致分为监督学习与无监督学习两大类:
监督学习: 一般适用于分类问题(即所研究的数据带有标签)
无监督学习:一般适用于聚类问题(数据不带标签,例如散点数据,可实现回归预测等)
常见的三类问题:回顾、分类、聚类
回归问题:连续型数据。一般可用于预测数据等。
分类问题:类别型数据,并且数据类型已知。
聚类问题:类别型数据,并且数据类型未知。
如图为聚类问题的一种情况:

在具体数据处理过程中一般分为训练集、验证集、测试集
而在实际过程中,往往将验证集与测试集统一合为测试集,因此最终只有训练集与测试集。训练集用于训练模型,测试集用于测试训练所得的模型。
一元线性回归
一元线性回归问题中,数据最终在坐标轴上可近似用一条直线拟合。将该直线设为:hθ(x)=θ0+θ1x 也将该直线称为回归线。
为了衡量拟合直线的优劣,在该情况下引入代价函数:
J(θ0,θ1)=2m1∑i=1m(yi−hθ(xi))2
即J(θ0,θ1)为该一元线性函数的代价函数,当J的值最小时的θ0,θ1即为符合的截距与斜率。(该方法为最小二乘法)

而线性相关的强度用相关系数衡量:
rxy=∑i=1m(xi−x)2(yi−y)2∑i=1m(xi−x)(yi−y)
梯度下降法
梯度下降法基本步骤为:
(1)初始化θ0与θ1的值,并确定迭代步数与步长(学习率)。
(2)对该位置进行求导,得到该点的梯度。
(3)用公式更新θ0与θ1。
(4)迭代上述步骤。
同步更新:
temp0=θ0-α ∂θ0∂ J(θ0,θ1)
temp1=θ1-α ∂θ1∂ J(θ0,θ1)
θ0=temp0;θ1=temp1
其中α为步长(学习率),为正值。