逻辑回归算法原理推导

公式： $g(z)=\frac{1}{1+e^{-z}}$
自变量取值为任意实数，值域为[0，1]
解释：将任意的输入映射到看[0，1]区间，我们在线性回归中可以得到一个预测值，再将该值映射到Sigmoid函数中，这样就完成了由值到概率的转换，也就是分类任务
预测函数： $h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
其中 $\theta_0+\theta_1x_1+,...,+\theta_nx_n=\sum_{i=1}^n\theta_ix_i=\theta^Tx$
分类任务： $P(y=1|x;\theta)=h_\theta(x)$ $P(y=0|x;\theta)=1-h_\theta(x)$
- 整合： $P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$
解释：对于二分类任务(0，1)，整合后y取0只保留 $(1-h_\theta(x))^{1-y}$ ，y取1只保留 $(h_\theta(x))^y$

似然函数： $L(\theta)=\prod_{i=1}^mP(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y^i}(1-h_\theta(x_i))^{1-y}$
对数似然： $l(\theta)=\log L(\theta)=\sum_{i=1}^m(y_i\log h_\theta(x_i)+(1-y_i)\log(1-h_\theta(x_i)))$
此时应用梯度上升求最大值，引入 $J(\theta)=-\frac{1}{m}l(\theta)$ 转换为梯度下降任务
参数更新： $\theta_j:\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$
多分类的softmax： $h_\theta(x^i)= \left[ \begin{matrix} p(y^i=1|x^i;\theta) \\ p(y^i=2|x^i;\theta) \\ . \\ . \\ . \\ p(y^i=k|x^i;\theta) \end{matrix} \right] =\frac{1}{\sum_{j=1}^ke_j^{Tx^i}} \left[ \begin{matrix} e^{\theta_1^Tx^i} \\ e^{\theta_2^Tx^i} \\ . \\ . \\ . \\ e^{\theta_k^Tx^i} \end{matrix} \right]$
总结：逻辑回归真的很好很好用！