逻辑回归(Logistic Regression)——非线性逻辑函数的由来
1、逻辑回归
先来看LR本身,LR的模型函数记作:,具体形式:
对应一元自变量的形式:
函数在二维坐标中(没错,就是Sigmoid函数):
2、指数增长
用一个例子来说明指数增长。最初,学者们将人口数量与时间的函数定义为,为时间,表示人口数量,而就代表人口的增长率。我们假设,与成正比,即。
我们知道指数函数的微分函数还是,于是将指数函数引入其中,有,在二维坐标中表现:(注:有时,a也可以替换成初始值)
用去为一个新生国家的人口增长建模,在早期阶段可以有效的描述人口增长情况。马尔萨斯的人口论中“在没有任何外界阻碍的情况下,人口将以几何级数增长”的说法,正是依据这样一个模型。
3、逻辑函数
对指数增长的修正
到了19世纪早期,开始有数学家、统计学家质疑模型,因为任何事物都不可能按照几何级数增长下去,于是比利时数学家Verhulst提出新模型:
其中,是以为自变量的函数,它代表随着总数增长出现的阻力。当阻力函数表现为的二次型时,新模型显示出它的逻辑性:
其中,表示的上限。这样,增长就与总量、目前总量与最终上限的差两者成比例。
我们设
则有一阶自治微分方程
求解:
化简一下
再化简一下,替换为,替换为:
画个图看看
逻辑分布
逻辑函数表示的是存量随时间增长渐增的关系,而增长率与时间的关系是其微分函数和图:
有点像正态分布的曲线,不过恰在实际应用中,逻辑分布在某些领域和场合,被用来作为正态分布的替代。
逻辑函数的通用形式
上面讲的都是x是一维的情况,当x为多维时,a+bx用表示(都是向量),逻辑函数:
附加
借助数学工具解决问题的方法
- 将目标问题定义为一个函数; 选取最简单的假设作为其具体形式;
- 用事实数据验证该形式,确认有效后沿用,形成数学模型;
- 用事实数据验证该形式,确认有效后沿用,形成数学模型;用事实数据验证该形式,确认有效后沿用,形成数学模型;
- 一旦当前采用的数学模型出现问题,则对其进行修正(添加修正项)一旦当前采用的数学模型出现问题,则对其进行修正(添加修正项),同样借助事实数据来求取修正的形式,形成新的(升级版)数学模型
直接、简单、基于现有成果,这也是人类在现实当中解决问题的各种有效办法的共同特征。学习理论相对于学习经验具备更长久也更深入的有效性。
线性和非线性
不同的事物在多大程度上可能共同发声,以此为依据来判断:未来,在某些事物(自变量)发生后,另一些事物(因变量)是否会发生。
线性关系表达的是一种相关性,线性回归简单、容易理解、计算量低,在现实中广泛应用,但是相关并不是因果,两件事会同时发生,并不是说他们之间就有因果关系,还有许许多多的情况无法用简单的相关来模型化,在这些情况下,线性模型往往无法揭示自变量和因变量的关系。