连续数据 —— 回归
离散数据 —— 分类
线性回归

建模的过程实际就是找参数a、b两个变量的值。
以房屋价格为例考虑两个特征居室数和房屋面积。

-
模型hθ(x)的第一项可以看成是θ0x0,只不过使得x0恒为1。这样可令参数向量为θ=[θ0,θ1,θ2],x=[1,x1,x2]。可推hθ(x)=θTx
- 模型hθ(x):x是样本,θ是要估计出的参数。我们建模的主要工作就是根据x1,x2估算出合理的θ0,θ1,θ2。
多个变量的情形就是增加样本x的维度(特征个数)
那么,实际的值为估测值+误差
y(i)=θTx(i)+ε(i)
误差ε(i)(1≤i≤m)是独立分布的,服从均值为0,方差为某定值σ2的高斯分布。原因:中心极限定理
似然函数


目标函数(损失函数):J(θ),预测值 - 实际值的平法做累加,这不是最小二乘(假定服从高斯分布且认为样本是独立的使用最大似然估计就可以得出结论)。
聊聊“假设”




θ 的求解过程
计算最优解

半正定为凸函数



我们希望参数值不要太大。

- L1正则——LASSO——高阶项系数越来越趋近于0,表示特征选择。
- L2正则——Ridge
- 二者结合Elastic-Net

机器学习与数据使用

十折交叉验证:将数据分成十份,9份作为训练数据,1份作为验证数据。这样的验证可以做10次,再取10次的平均结果。
Moore-Penrose广义逆矩阵(伪逆)
- 如果X是可逆矩阵:Xθ=y⇒θ=X−1y
- 如果X不可逆矩阵:Xθ=(XTX)−1⋅XTy


梯度下降算法




实践中使用最多的mini-batch但通常简称SGD
