02-13 Softmax回归

文章目录

Softmax回归
Softmax回归详解

让步比
不同类之间的概率分布
目标函数
目标函数最大化

Softmax回归优缺点

优点
缺点

Softmax回归

Softmax回归属于多分类 $c_1,c_2,\ldots,c_k$ 模型，它通过估计某个样本属于 $k$ 个类别的各自的概率达到多分类的目的。它是逻辑回归的一般形式，即当 $k=2$ 的时候退化为逻辑回归。

02-13 Softmax回归

Softmax回归详解

让步比

由于softmax回归更多的是逻辑回归的多分类形式，此处只给出softmax的定义及公式。
让步比可以理解成有利于某一特定事件的概率，可以定义为
${\frac{p}{1-p}}$
在已知二分类问题的情况下每个分类的概率分别为 $\hat{y_i}$ 和 $1-\hat{y_i}$ ，可以定义logit函数，即让步比的对数形式（log-odds）为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \log{it}(\hat{…
其中 $\log{it}(p)$ 函数等于事件发生的概率除以不发生的概率取对数，即表示特征值和对数概率之间的线性关系。

不同类之间的概率分布

现在假设有一个 $k$ 元分类模型，即样本的输出值为 $c_1,c_2,\ldots,c_k$ ，对于某一个实例预测为 $c_i$ 样本的概率总和为 $1$ ，即
$\sum_{i=1}^k p(y=i|x,\omega) =1$
该 $k$ 元分类模型依据让步比的对数形式可以得到
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \ln{\frac{p(…
通过对上述公式化简可得
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & {\frac{p(y=1…
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ e^{{\omega_1^T…
既得 $p(y=k|x,\omega)={\frac{1}{1+\sum_{i=1}^{k-1} e^{{\omega_i^T}x}}}$

通过 $p(y=k|x,\omega)$ 即可推出 $p(y=j|x,\omega)={\frac{e^{{\omega_j^T}x}}{1+\sum_{t=1}^{k-1} e^{{\omega_t^T}x}}} \quad j=1,2,\ldots,k-1$ ，因此可以得到 $k$ 元分类模型的 $k$ 个类的概率分布为
$p(c=k|x,\omega)= \begin{cases} {\frac{e^{{\omega_j^T}x}}{1+\sum_{t=1}^{k-1} e^{{\omega_t^T}x}}} \quad j=1,2,\ldots,k-1 \quad if类别为1,2,\ldots,k-1 \\ {\frac{1}{1+\sum_{i=1}^{k-1} e^{{\omega_i^T}x}}} \quad if类别为k \\ \end{cases}$

目标函数

上一节基于 ${\omega_k^T}x=0$ 计算出每个分类的概率，然而现实中往往 ${\omega_k^T}x\neq0$ ，可以使用上一节的推导过程假设 ${\omega_k^T}x\neq0$ 则可以推导出 $k$ 元分类模型的 $k$ 个类的概率分布为
$p(c=k|x,\omega)={\frac{e^{{\omega_j^T}x}}{\sum_{t=1}^{k} e^{{\omega_t^T}x}}} \quad j=1,2,\ldots,k$
通过上述 $k$ 个类别的概率分布可得似然函数
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ L(\omega) & = …

通过似然函数即可得对数似然函数即目标函数（注：该目标函数与交叉熵损失函数的形式一致，二元逻辑回归可以理解为交叉熵损失函数两个类变量的特殊形式，Softmax回归可以理解成交叉熵损失函数的多个类变量的特殊形式，交叉熵为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ J_m(\omega) & …

目标函数最大化

由于Softmax回归和逻辑回归都可以使用梯度上升法使得目标函数最大化，并且方式一样，因此此处只给出目标函数对参数的偏导。
${\frac{\partial{J(\omega)}}{\partial\omega_k}}=\sum_{i=1}^m ({y_i}_k-p({y_i}_k|x_i,\omega_k))x_i$

Softmax回归优缺点

优点

基于模型本身可以处理多分类问题

缺点

计算极其复杂

02-13 Softmax回归