（系列笔记）4.逻辑回归（上）

逻辑回归(Logistic Regression)——非线性逻辑函数的由来

1、逻辑回归

先来看LR本身，LR的模型函数记作： $y=h(x)$ ，具体形式：
（系列笔记）4.逻辑回归（上）
对应一元自变量的形式：

函数在二维坐标中（没错，就是Sigmoid函数）：

2、指数增长

用一个例子来说明指数增长。最初，学者们将人口数量与时间的函数定义为 $W(t)$ ， $t$ 为时间， $W(t)$ 表示人口数量，而 $W'(t)$ 就代表人口的增长率。我们假设， $W'(t)$ 与 $W(t)$ 成正比，即 $W'(t)=bW(t)$ 。

我们知道指数函数 $f(x)=e^x$ 的微分函数还是 $e^2$ ，于是将指数函数引入其中，有 $W(t)=ae^{bt}$ ，在二维坐标中表现：（注：有时，a也可以替换成初始值 $W(0)$ ）
（系列笔记）4.逻辑回归（上）
用 $W(t)=ae^{bt}$ 去为一个新生国家的人口增长建模，在早期阶段可以有效的描述人口增长情况。马尔萨斯的人口论中“在没有任何外界阻碍的情况下，人口将以几何级数增长”的说法，正是依据这样一个模型。

3、逻辑函数

对指数增长的修正

到了19世纪早期，开始有数学家、统计学家质疑 $W(t)=ae^{bt}$ 模型，因为任何事物都不可能按照几何级数增长下去，于是比利时数学家Verhulst提出新模型：
（系列笔记）4.逻辑回归（上）
其中， $g(W(t))$ 是以 $W(t)$ 为自变量的函数，它代表随着总数增长出现的阻力。当阻力函数表现为 $W(t)$ 的二次型时，新模型显示出它的逻辑性：

其中， $L$ 表示 $W(t)$ 的上限。这样，增长就与总量、目前总量与最终上限的差 $L-W(t)$ 两者成比例。

我们设
（系列笔记）4.逻辑回归（上）
则有一阶自治微分方程
求解：

化简一下

再化简一下， $t$ 替换为 $x$ ， $P$ 替换为 $h$ ：

画个图看看

逻辑分布

逻辑函数表示的是存量随时间增长渐增的关系，而增长率与时间的关系是其微分函数和图：
（系列笔记）4.逻辑回归（上）

（系列笔记）4.逻辑回归（上）
有点像正态分布的曲线，不过恰在实际应用中，逻辑分布在某些领域和场合，被用来作为正态分布的替代。

逻辑函数的通用形式

上面讲的都是x是一维的情况，当x为多维时，a+bx用 $\theta^Tx$ 表示（都是向量），逻辑函数：
（系列笔记）4.逻辑回归（上）

附加

借助数学工具解决问题的方法

将目标问题定义为一个函数; 选取最简单的假设作为其具体形式;
用事实数据验证该形式，确认有效后沿用，形成数学模型；
用事实数据验证该形式，确认有效后沿用，形成数学模型；用事实数据验证该形式，确认有效后沿用，形成数学模型；
一旦当前采用的数学模型出现问题，则对其进行修正（添加修正项）一旦当前采用的数学模型出现问题，则对其进行修正（添加修正项），同样借助事实数据来求取修正的形式，形成新的（升级版）数学模型
直接、简单、基于现有成果，这也是人类在现实当中解决问题的各种有效办法的共同特征。学习理论相对于学习经验具备更长久也更深入的有效性。

线性和非线性

不同的事物在多大程度上可能共同发声，以此为依据来判断：未来，在某些事物（自变量）发生后，另一些事物（因变量）是否会发生。

线性关系表达的是一种相关性，线性回归简单、容易理解、计算量低，在现实中广泛应用，但是相关并不是因果，两件事会同时发生，并不是说他们之间就有因果关系，还有许许多多的情况无法用简单的相关来模型化，在这些情况下，线性模型往往无法揭示自变量和因变量的关系。