回归(regression)和logistic regression

回归

“回归”就是“回归本质”的意思。用一个函数去拟合一组数据(xi,yi)，随着数据越来越多，用来拟合的这个曲线就越来越接近真实的情况。这里xi可以是一个向量, 假设xi∈Rn, 若用线性回归的方法, 首先把它扩展为n+1维, 用来拟合的参数θ∈Rn+1; 其中x0=1, 对应θ0为截距. , 所以函数拟合的是一个n+2维的超平面(θT⋅x−y=0). 拟合后得到的超平面, 输出前n+1维的输入, 可以得到一个输出y.
* linear regression：用直线拟合
* logistci regression：用一种曲线拟合（曲线的形状和sigmoid有什么联系?）

Logistics regression

θT⋅x是linear regression，套一层sigmoid将输出映射到(0,1)。

假设训练集为(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))；输入特征为x(i)∈Rn+1（我们对符号的约定如下：特征向量x(i)的维度为n+1，其中x0=1，对应截距项）。由于logistic回归是针对二分类问题的，因此类标记y(i)∈{0,1}。假设函数(hypothesis function) 如下：

h θ (x) = 1 1 + e - θ T \cdot x, θ \in R n + 1

Interpretion：hθ(x(i))=Sigmoid(θT⋅x(i))是y(i)=1的概率，1−hθ(x(i))是y(i)=0的概率(吴恩达，Logistic Regression: Optimization Objective I)

训练θ，使其能最小化代价函数：

J (θ) = - 1 m [\sum i = 1 m log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

为什么cost function定义为这样？
* 首先的确可以定义为squared error的形式，即

J (θ) = 1 m \sum i = 1 m (h θ (x) - y (i)) 2

但是该曲线not convex，即很难找到全局最优。定义为上面的形式则convex。
回归(regression)和logistic regression

* 对某个(x(i),y(i))分类讨论：
1. 当y(i)=1时，cost→∞ when hθ(x(i))→0; cost→0 when hθ(x(i))→1(i.e. y(i))
回归(regression)和logistic regression

2. 当y(i)=0时，cost→0(i.e. y(i)) when hθ(x(i))→0; cost→∞ when hθ(x(i))→1
回归(regression)和logistic regression

* 用log函数的意义在于，它就是好用，而且convex。（这里我也不明白，就先这么记着）