Andrew Ng机器学习课程笔记（四）之监督学习之Generalized Linear Models

Preface
Exponential Family
Generalized Linear Models

Preface

主要内容：
Exponential Family（指数分布族）
Generalized Linear Models（广义线性模型）
Softmax Regression

Exponential Family

首先，我们回忆一下前面几节课所讲的内容，主要是通过高斯分布和伯努力分布进而推导出最小二乘法概率模型与逻辑回归概率模型。
$\begin{matrix} (1) & y \in R : G a u s s i a n (ϕ) \to L e a s t S q u a r e s \end{matrix}$
$\begin{matrix} (2) & y \in {0, 1} : B e r n o u l l i (ϕ) \to L o g i s t i c R e g r e s s i o n \end{matrix}$
而，高斯分布和伯努力分布都可以写成指数分布族的形式：

\begin{aligned} (3) & p (y ∣ η) = b (y) \exp (η^{T} \cdot T (y) - a (η)) \end{aligned}

其中，

η

为自然参数(nature parameter)，

T (y)

是充分统计量（sufficient statistic），在一般情况下，

T (y) = y

。当参数

a

，

b

，

T (y)

都固定以后，就定义了一个以

η

为参数的函数族。

接下来以高斯分布和伯努力分布说明如何定义了一个以 $η$ 为参数的函数族：

1.Bernoulli Distribution

伯努利分布是对0，1分布的问题进行建模。所以，其概率密度函数如下：

\begin{aligned} (4) & B e r n o u l l i (ϕ) = p (y ∣ η) = {\begin{cases} p (y = 1 ∣ y; φ) = φ \\ p (y = 0 ∣ y; φ) = 1 - φ \end{cases}, y \in {0, 1} \end{aligned}

即，

\begin{aligned} (5) & P (y, ϕ) & = ϕ^{y} (1 - ϕ)^{(1 - y)} \\ (6) & = e x p (l o g ϕ^{y} (1 - ϕ)^{(1 - y)}) \\ (7) & = e x p (y l o g ϕ + (1 - y) l o g (1 - ϕ)) \\ (8) & = e x p (y l o g \frac{ϕ}{1 - ϕ} + l o g (1 - ϕ)) \end{aligned}

所以有，

\begin{aligned} (9) & η = l o g \frac{ϕ}{1 - ϕ} \end{aligned}

\begin{aligned} (10) & ϕ = \frac{1}{1 + e^{- η}} \end{aligned}

\begin{aligned} (11) & P (y, ϕ) & = - l o g (1 - ϕ) \\ (12) & = l o g (1 + e^{η}) \end{aligned}

\begin{aligned} (13) & T (y) = y \end{aligned}

\begin{aligned} (14) & b (y) = 1 \end{aligned}

这样我们就可以清楚地看出伯努力分布如何定义了一个以

η

为参数的函数族。同时也说明了，

y \in {0, 1} : B e r n o u l l i (ϕ) \to L o g i s t i c R e g r e s s i o n

的模型函数的logistic函数的形式问题。

2.Gaussian Distribution

在线性回归模型中， $σ^{2}$ 的取值对于最后的 $θ$ 与 $h_{θ} (x)$ 无影响，故以在这里，我们将 $σ^{2}$ 取值为1。所以，高斯分布概率密度函数如下：

\begin{aligned} (15) & N (y; μ, 1) & = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} (y - μ)^{2}) \\ (16) & = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} y^{2} - \frac{1}{2} μ^{2} + μ y) \\ (17) & = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} y^{2}) e x p (μ y - \frac{1}{2} μ^{2}) \end{aligned}

所以有，

$\begin{matrix} (18) & η = μ \end{matrix}$
$\begin{matrix} (19) & T (y) = y \end{matrix}$
$\begin{matrix} (20) & a (η) = μ^{2} / 2 = η^{2} / 2 \end{matrix}$
$\begin{matrix} (21) & b (y) = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} y^{2}) \end{matrix}$

这样我们就可以清楚地看高斯分布如何定义了一个以 $η$ 为参数的函数族。

这样，我们就说明了高斯分布和伯努力分布属于指数分布族。同样的还有泊松分布（用于对记数建模，例如网站的访客数量，商店的顾客数）、伽马分布与指数分布（用于正数的分布，对间隔进行建模，例如在公交站等车时的下一趟车什么时候到）、 $β$ 分布与Dirichlet分布（用于小数的分布，对概率分布进行建模的概率分布）、Wishart分布（协方差矩阵分布）等等都属于指数分布族。

Multinomial Distribution

多项式分布是对伯努力分布的多元扩展，主要用于解决多分类问题。多分类问题使得对于0-1问题建模的伯努力分布 $y \in {0, 1}$ 无法满足问题需要，进而有 $y \in {1, 2 . . . k}$ 。

定义1：概率 $p (y = i) = ϕ_{i}$ ，为了避免过参数化所以有： $ϕ_{i} = p (y = i; ϕ)$ ，
$k \in {1, k - 1}$ ，可以推出 $ϕ_{k} = 1 - \sum_{i = 1}^{k - 1} ϕ_{i}$ 。
定义2：由于 $T (y) \neq y$ ，所以 $T (y) \in R^{k - 1}$ ,即为：
Andrew Ng机器学习课程笔记（四）之监督学习之Generalized Linear Models
定义3：指示器函数 $1 {t r u e} = 1; 1 {f a l s e} = 0$ ，既有 $(T (y))_{i} = 1 {y = i}$ ,继而推得 $E [(T (y))_{i}] = P (y = i) = ϕ_{i}$ 。

所以，多项式分布概率密度函数如下：
Andrew Ng机器学习课程笔记（四）之监督学习之Generalized Linear Models
所以有，

所以，推导可得： $η_{i} = l o g \frac{ϕ_{i}}{ϕ_{k}}$ ，同时 $η_{k} = l o g \frac{ϕ_{k}}{ϕ_{k}} = l o g 1 = 0$ 。

继续推导：

\begin{aligned} (22) & e^{η_{i}} = \frac{ϕ_{i}}{ϕ_{k}} \end{aligned}

\begin{aligned} (23) & ϕ_{k} e^{η_{i}} = ϕ_{i} \end{aligned}

\begin{aligned} (24) & ϕ_{k} \sum_{i = 1}^{k} e^{η_{i}} = \sum_{i = 1}^{k} ϕ_{i} = 1 \end{aligned}

\begin{aligned} (24) & ϕ_{k} = \frac{1}{\sum_{i = 1}^{k} e^{η_{i}}} \end{aligned}

由等式（23） $ϕ_{k} e^{η_{i}} = ϕ_{i}$ 可以得：

\begin{aligned} (25) & ϕ_{i} = ϕ_{k} e^{η_{i}} = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}} \end{aligned}

Generalized Linear Models

Three Assumptions

首先我们对于GLM（Generalized Linear Models，广义线性模型）做出下述三个假设（设计决策）：

$y | x; θ \sim E x p o n e n t i a l F a m i l y (η)$ ,假设一的式子表示变量 $y$ 在给定的 $x$ ，并以 $θ$ 为参数下的条件概率分布，属于以自然参数 $η$ 的指数分布族。
给定 $x$ ，目标输出期望 $E [T (y) | x]$ ，估计函数为： $h (x) = E [T (y) | x]$ ，一般 $T (y) = y$ 。
$η = θ^{T} x$ ，即指数分布族中参数 $η$ 与输入特征 $x$ 满足某种线性关系。（一般而言， $η_{i} = θ_{i}^{T} x, η \in R$ ）

由Bernoulli Distribution到Logistic Regression模型

Step1：Bernoulli： $y | x; θ \sim E x p F a m i l y (η)$ ；
Step2：由假设二 $h_{θ} (x) = E (y | x; θ) = P (y = 1 | x : θ) = ϕ$ ；
Step3：由公式（10） $ϕ = 1 / (1 + e^{- η})$ 和假设三 $η = θ^{T} x$ ；
Step4：所以 $ϕ = 1 / (1 + e^{- η}) \to ϕ = 1 / (1 + e^{- θ^{T} x})$ ；
Step5： $ϕ = 1 / (1 + e^{- θ^{T} x})$ 就是Logistic Regression模型；

Note：

$g (η) = E [y | η] = (1 + e^{- η})^{- 1}$ ，正则响应函数。
$g (η)^{- 1}$ ，正则关联函数。

由Gaussian Distribution到Ordinary Least Squares模型

Step1：Gaussian： $y | x; θ \sim E x p F a m i l y (η) \sim N (μ, σ^{2})$ ；
Step2：由假设二 $h_{θ} (x) = E (y | x; θ) = μ$ ；
Step3：由公式（18） $η = μ$ 和假设三 $η = θ^{T} x$ ；
Step4：所以 $h_{θ} (x) = E (y | x; θ) = μ = η = θ^{T} x$ ；
Step5： $h_{θ} (x) = θ^{T} x$ 就是Ordinary Least Squares模型；

由Multinomial Distribution到Softmax Regression模型

Step1：Multinomial ： $y | x; θ \sim E x p F a m i l y (η)$ ；
Step2：由假设三 $η = θ^{T} x$ ，

\begin{aligned} (26) & p (y = i | x; θ) & = ϕ_{i} \\ (27) & = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}} \\ (28) & = \frac{e^{θ_{i}^{T} x}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x}} \end{aligned}

；

Step3：由假设二
Andrew Ng机器学习课程笔记（四）之监督学习之Generalized Linear Models
；

For Example：
假设有一个大小为m的训练集，它的似然函数为：
Andrew Ng机器学习课程笔记（四）之监督学习之Generalized Linear Models
最后在在有了最大似然函数之后，我们就可以使用牛顿法或梯度法来求 $θ$ 。