[机器学习] 分类(Classification)——贝叶斯分类 (Bayes Classification) 和逻辑回归 (Logistic Regression)

Classification

Probabilistic Generative Model

在概率论中，我们学习过贝叶斯公式，他是说当一件事情 A A A 发生了，这件事可能有 n n n 个原因 B 1 , . . . , B n B_1,\ ...\ ,B_n B1, ... ,Bn ，那么在 A A A 发生的条件下，事情是由 B i B_i Bi 引起的概率记为 p ( B i ∣ A ) p(B_i|A) p(Bi∣A) ，这个概率等于在 B i B_i Bi 发生的概率乘以 B i B_i Bi 的条件下 A A A 发生的概率除以 A A A 发生的概率。即：
p ( B i ∣ A ) = p ( A ∣ B i ) p ( B i ) p ( A ) p(B_i|A)=\frac {p(A|B_i)p(B_i)} {p(A)} p(Bi∣A)=p(A)p(A∣Bi)p(Bi)
其中， A A A 发生的概率又等于各个原因的造成 A A A 发生的概率的和，即 p ( A ) = ∑ j = 1 n p ( A ∣ B j ) p ( B j ) p(A) = \sum_{j=1}^np(A|B_j)p(B_j) p(A)=∑j=1np(A∣Bj)p(Bj) 。所以贝叶斯公式的公式是：
p ( B i ∣ A ) = p ( A ∣ B i ) p ( B i ) ∑ j = 1 n p ( A ∣ B j ) p ( B j ) p(B_i|A)=\frac {p(A|B_i)p(B_i)} {\sum_{j=1}^np(A|B_j)p(B_j)} p(Bi∣A)=∑j=1np(A∣Bj)p(Bj)p(A∣Bi)p(Bi)
回到我们的分类任务，假设我们只需将数据分为两类，即 n = 2 n=2 n=2 ，而分类任务就是给了你一组特征值向量 x \boldsymbol x x ，你需要给出他是属于第一类 C 1 C_1 C1 还是第二类 C 2 C_2 C2 的，那么按照概率的思想，我们就可以去求这个向量是 C 1 C_1 C1 的概率和是 C 2 C_2 C2 的概率。哪个概率大我们就认为他是哪类的。也就是去求 p ( C 1 ∣ x ) p(C_1|\boldsymbol x) p(C1∣x) 和 p ( C 2 ∣ x ) p(C_2|\boldsymbol x) p(C2∣x) ，他两的和是为 1 的，所以只需要求一个 p ( C 1 ∣ x ) p(C_1|\boldsymbol x) p(C1∣x) ，若大于 0.5 0.5 0.5 就分类为 C 1 C_1 C1 ，否则就分类为 C 2 C_2 C2 。根据贝叶斯公式：
p ( C 1 ∣ x ) = p ( x ∣ C 1 ) p ( C 1 ) p ( x ∣ C 1 ) p ( C 1 ) + p ( x ∣ C 2 ) p ( C 2 ) p(C_1|\boldsymbol x) = \frac {p(\boldsymbol x|C_1)p(C_1) } {p(\boldsymbol x|C_1)p(C_1)+p(\boldsymbol x|C_2)p(C_2)} p(C1∣x)=p(x∣C1)p(C1)+p(x∣C2)p(C2)p(x∣C1)p(C1)
所以在这个二分类问题中，我们的目标就是去求解 p ( x ∣ C 1 ) 、 p ( C 1 ) 、 p ( x ∣ C 2 ) 、 p ( C 2 ) p(\boldsymbol x|C_1)、p(C_1)、p(\boldsymbol x|C_2)、p(C_2) p(x∣C1)、p(C1)、p(x∣C2)、p(C2) 这四个概率。这四个参数是用训练集的参数求出的。首先来看怎么求 p ( C 1 ) 、 p ( C 2 ) p(C_1)、p(C_2) p(C1)、p(C2) ，这两个其实就是 C 1 、 C 2 C_1、C_2 C1、C2 在实际中发生的概率，但是我们没法知道全体样本中这两类的概率分别是多少，我们只能根据数据集来估测这两个概率。假设我们的数据集有 m m m 个样本，其中 k k k 个是 C 1 C_1 C1 ，其余 m − k m-k m−k 是 C 2 C_2 C2 ，那么我们能够得到这个样本集的概率就是：

p = p ( C 1 ) k p ( C 2 ) m − k = p ( C 1 ) k ( 1 − p ( C 1 ) ) m − k \begin{aligned} p &= p(C_1)^kp(C_2)^{m-k} \\ &=p(C_1)^k(1-p(C_1))^{m-k} \end{aligned} p=p(C1)kp(C2)m−k=p(C1)k(1−p(C1))m−k
按照极大似然估计的思想，这件事发生的概率最大时，即 p p p 最大时， p ( C 1 ) p(C_1) p(C1) 的值就最可能是全体样本中 C 1 C_1 C1 发生的概率。对两边取自然对数再求导：
∂ ln ⁡ p ∂ p ( C 1 ) = ∂ [ k ln ⁡ p ( C 1 ) + ( m − k ) ln ⁡ ( 1 − p ( C 1 ) ) ] ∂ p ( C 1 ) = k p ( C 1 ) − m − k 1 − p ( C 1 ) \begin{aligned} \frac {\partial\ln {p}} {\partial p(C_1)} &= \frac {\partial[k\ln {p(C_1)} + (m-k)\ln {(1-p(C_1))}]} {\partial p(C_1)} \\ &=\frac k {p(C_1)} - \frac {m-k} {1-p(C_1)} \end{aligned} ∂p(C1)∂lnp=∂p(C1)∂[klnp(C1)+(m−k)ln(1−p(C1))]=p(C1)k−1−p(C1)m−k
因为对 p p p 取自然对数不会改变 p p p 的单调性，所以 ln ⁡ p \ln p lnp 取最值点时的 p ( C 1 ) p(C_1) p(C1) 也就是 p p p 求最值时的点。所以上式等于 0 时为极值点，求解得：
k p ( C 1 ) = m − k 1 − p ( C 1 ) k − k p ( C 1 ) = ( m − k ) p ( C 1 ) p ( C 1 ) = k m \begin{aligned} \frac k {p(C_1)} &= \frac {m-k} {1-p(C_1)} \\ k-kp(C_1)&=(m-k)p(C_1) \\ p(C_1) &= \frac k m \end{aligned} p(C1)kk−kp(C1)p(C1)=1−p(C1)m−k=(m−k)p(C1)=mk
上面这个是当分类类别只有两个的时候的结果，其实当有多个类别的结果也是一样的，也就是 p ( C i ) p(C_i) p(Ci) 的极大似然估计是样本集中，属于 C i C_i Ci 的样本的个数 m i m_i mi 除以样本集的总个数 m m m ：
p ( C i ) = m i m p(C_i) = \frac {m_i} m p(Ci)=mmi
上面对分类结果的分布其实是假设其服从的伯努利分布来计算的。因为类别的结果只可能是给定的几个类，比如记为 1 、 2 、 . . . 、 n 1、2、...、n 1、2、...、n 而不可能是其他取值，比如说 1.5 1.5 1.5 等等，所以这个假设是合理的。至此，我们解决了前面所要计算的 p ( C 1 ) 、 p ( C 2 ) p(C_1)、p(C_2) p(C1)、p(C2) 的值，接下来我们来解决 p ( x ∣ C 1 ) 、 p ( x ∣ C 2 ) p(\boldsymbol x|C_1)、p(\boldsymbol x|C_2) p(x∣C1)、p(x∣C2) ，以 p ( x ∣ C 1 ) p(\boldsymbol x|C_1) p(x∣C1) 为例，这个是说，在类别标签为 C 1 C_1 C1 的样本中，他的特征参数的形式为 x \boldsymbol x x 的概率。基于不同的模型我们计算出的概率的方式和结果是不同的。比如说 x \boldsymbol x x 的取值也是离散分布的，比如在一个水果类别分类任务中，我们的特征属性可能是水果的颜色、形状，颜色的取值假设只有红色、黄色、绿色、蓝色这四种，形状只有圆形、方形、弯月型这几种。那么用伯努利分布去估测 p ( x ∣ C 1 ) 、 p ( x ∣ C 2 ) p(\boldsymbol x|C_1)、p(\boldsymbol x|C_2) p(x∣C1)、p(x∣C2) 是合理的。估测的方法也和上面一样，就是样本集会缩小，比如在估测 p ( x ∣ C 1 ) p(\boldsymbol x|C_1) p(x∣C1) 的时候，只取样本集中类别为 C 1 C_1 C1 的样本，然后再在这个条件下的样本子集中取计算 p ( x ) p(\boldsymbol x) p(x) 。但是当样本属性为长度、温度等连续值属性时，再使用伯努利分布就不合理了，因为样本集中不可能将所有的结果都取到，因为连续值有无穷种可能，那么在预测的时候，再用伯努利分布来计算 p ( x ∣ C 1 ) p(\boldsymbol x|C_1) p(x∣C1) 的话，几乎都是 0 0 0 的，因为基本不可能取到和样本集中一模一样的参数，那就没法来预测了。这个时候，我们可以用高斯分布来估测 p ( x ∣ C 1 ) p(\boldsymbol x|C_1) p(x∣C1) 。

Gaussian Distribution

我们假定属于某一类的数据集中各个属性的取值是服从高斯分布的，一个高斯分布是由均值 μ \boldsymbol \mu μ 和协方差 Σ \boldsymbol \Sigma Σ 决定的，他的公式为，其中 D D D 为 x \boldsymbol x x 的维数：
f μ , Σ ( x ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } f_{\boldsymbol \mu,\boldsymbol \Sigma}(\boldsymbol x)=\frac 1 {(2 \pi)^{D/2}} \frac {1} {| \Sigma |^{1/2}} \exp \{ -\frac 1 2 (\boldsymbol x- \boldsymbol \mu)^T {\boldsymbol \Sigma}^{-1} (\boldsymbol x- \boldsymbol \mu) \} fμ,Σ(x)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}
那么我们所做的就是用某一类的样本数据去找到这个类的分布函数，即找到对应的 μ \boldsymbol \mu μ 和 Σ \boldsymbol \Sigma Σ 。继续上面的例子，我们要找的分别是 C 1 C_1 C1 和 C 2 C_2 C2 的高斯分布函数 f μ 1 , Σ 1 ( x ) f_{\boldsymbol \mu_1,\boldsymbol \Sigma_1}(\boldsymbol x) fμ1,Σ1(x) 和 f μ 2 , Σ 2 ( x ) f_{\boldsymbol \mu_2,\boldsymbol \Sigma_2}(\boldsymbol x) fμ2,Σ2(x) ，就是要去算 μ 1 , Σ 1 , μ 2 , Σ 2 \boldsymbol \mu_1,\boldsymbol \Sigma_1,\boldsymbol \mu_2,\boldsymbol \Sigma_2 μ1,Σ1,μ2,Σ2 。以 C 1 C_1 C1 为例，依旧采用极大似然估计的思想来估计 μ 1 , Σ 1 \boldsymbol \mu_1,\boldsymbol \Sigma_1 μ1,Σ1 这两个参数。假设数据集里类别为 C 1 C_1 C1 的数据为 x 11 ， x 12 ， . . . ， x 1 k \boldsymbol x_{11}，\boldsymbol x_{12}，...，\boldsymbol x_{1k} x11，x12，...，x1k 共 k k k 个，假设每个样本之间是相互独立的，则这 k k k 个样本被采集到的概率为各自被采集到的概率的乘积：
p = ∏ i = 1 k f μ 1 , Σ 1 ( x 1 i ) p=\prod_{i=1}^kf_{\boldsymbol \mu_1,\boldsymbol \Sigma_1}(\boldsymbol x_{1i}) p=i=1∏kfμ1,Σ1(x1i)
求解的结果是， p p p 最大时：
μ 1 = 1 k ∑ i = 1 k x 1 i Σ 1 = 1 k ∑ i = 1 k ( x 1 i − μ 1 ) ( x 1 i − μ 1 ) T \boldsymbol \mu_1 = \frac 1 k \sum_{i=1}^k {\boldsymbol x}_{1i} \\ \boldsymbol \Sigma_1=\frac 1 k \sum_{i=1}^k({\boldsymbol x}_{1i}-\boldsymbol \mu_1)({\boldsymbol x}_{1i}-\boldsymbol \mu_1)^T μ1=k1i=1∑kx1iΣ1=k1i=1∑k(x1i−μ1)(x1i−μ1)T
由此，我们就能够得到 f μ 1 , Σ 1 ( x ) f_{\boldsymbol \mu_1,\boldsymbol \Sigma_1}(\boldsymbol x) fμ1,Σ1(x) 这个 C 1 C_1 C1 的高斯分布，因此当给定一个新的 x \boldsymbol x x 时，我们就能代入到 f μ 1 , Σ 1 ( x ) f_{\boldsymbol \mu_1,\boldsymbol \Sigma_1}(\boldsymbol x) fμ1,Σ1(x) 就能求得 p ( x ∣ C 1 ) p(\boldsymbol x|C_1) p(x∣C1) ， C 2 C_2 C2 同理。至此，我们的贝叶斯公式的所有的值都知道了，我们就可以分别求得一个属性取值为 x \boldsymbol x x 的样本分别属于每个类的概率是多少，取其中最大的概率的结果所对应的类为我们的分类结果就完成了分类任务。

同 Σ \Sigma Σ 假设

上面的高斯分布模型中，我们为不同类别的数据分别训练了不同的高斯分布，我们还可以假设他们的 Σ \boldsymbol \Sigma Σ 是相同的，即分布的形状是相同的，只是均值不同，即中心点不同。这样可以减少参数的个数，在一些情况下分类的表现也可能比分开好。在同 Σ \boldsymbol \Sigma Σ 假设下，依旧采用极大似然估计来估计模型的参数。还是假设属于类别 C 1 C_1 C1 的参数有 k k k 个，属于 C 2 C_2 C2 的有 m − k m-k m−k 个。则这个样本被采集到的概率为：
p = ∏ i = 1 k f μ 1 , Σ ( x 1 i ) ∏ j = 1 m − k f μ 1 , Σ ( x 2 j ) p = \prod_{i=1}^kf_{\boldsymbol \mu_1,\boldsymbol \Sigma}(\boldsymbol x_{1i}) \prod_{j=1}^{m-k}f_{\boldsymbol \mu_1,\boldsymbol \Sigma}(\boldsymbol x_{2j}) p=i=1∏kfμ1,Σ(x1i)j=1∏m−kfμ1,Σ(x2j)
p p p 取最大值时， μ 1 , μ 2 , Σ \boldsymbol \mu_1,\boldsymbol \mu_2,\boldsymbol \Sigma μ1,μ2,Σ 的推导过程不在这里推导了，其结果是，均值和原来一样，协方差变为：
Σ = m k Σ 1 + m − k m Σ 2 \boldsymbol \Sigma = \frac m k\boldsymbol \Sigma_1 + \frac {m-k} m \boldsymbol \Sigma_2 Σ=kmΣ1+mm−kΣ2
按照这个假设得到的分类边界是一个线性的边界。

Naive Bayes Model

在概率论中，我们学过，当各个事件之间相互独立的时候，他们同时发送的概率等于各自发生的概率的乘积，即：
p ( A = a , B = b , C = c ) = p ( A = a ) p ( B = b ) p ( C = c ) p(A=a,B=b,C=c) = p(A=a)p(B=b)p(C=c) p(A=a,B=b,C=c)=p(A=a)p(B=b)p(C=c)
而在贝叶斯分类公式中，上面所讨论的是各个属性之间是有关联的条件下的结果，那么当假设其无关联的时候，贝叶斯分类就变成了朴素贝叶斯分类，假设 x \boldsymbol x x 是一个 n n n 维向量，则：（PS：这里的写法可能会和上面的写法冲突引起误解。上面的 x 1 i \boldsymbol x_{1i} x1i 的下标表示的是属于第 1 1 1 的第 i i i 个样本的取值向量，比如有 n n n 个向量就是 n n n 维的，而下面的下标表示 x \boldsymbol x x 这个 n n n 维向量的第 i i i 维度上的取值）
p ( x ) = p ( x 1 ) p ( x 2 ) p ( x 3 ) ⋯ p ( x n ) p(\boldsymbol x) =p(x_1)p(x_2)p(x_3)\cdots p(x_n) p(x)=p(x1)p(x2)p(x3)⋯p(xn)
在朴素贝叶斯下，上面的 n n n 为的高斯分布也就变成了 n n n 个一维高斯分布的乘积了。

Posterior Probability

下面来解释为什么同 Σ \boldsymbol \Sigma Σ 下，分类边界会是线性的。首先让我们对贝叶斯公式进行一下变换：
p ( C 1 ∣ x ) = p ( x ∣ C 1 ) p ( C 1 ) p ( x ∣ C 1 ) p ( C 1 ) + p ( x ∣ C 2 ) p ( C 2 ) = 1 1 + p ( x ∣ C 2 ) p ( C 2 ) p ( x ∣ C 1 ) p ( C 1 ) \begin{aligned} p(C_1|\boldsymbol x) &= \frac {p(\boldsymbol x|C_1)p(C_1) } {p(\boldsymbol x|C_1)p(C_1)+p(\boldsymbol x|C_2)p(C_2)} \\ & = \frac 1 {1+ \frac{ p(\boldsymbol x|C_2)p(C_2)}{p(\boldsymbol x|C_1)p(C_1)}} \end{aligned} p(C1∣x)=p(x∣C1)p(C1)+p(x∣C2)p(C2)p(x∣C1)p(C1)=1+p(x∣C1)p(C1)p(x∣C2)p(C2)1
令 z = ln ⁡ p ( x ∣ C 1 ) p ( C 1 ) p ( x ∣ C 2 ) p ( C 2 ) z=\ln\frac{ p(\boldsymbol x|C_1)p(C_1)}{p(\boldsymbol x|C_2)p(C_2)} z=lnp(x∣C2)p(C2)p(x∣C1)p(C1) ，则有：
p ( C 1 ∣ x ) = 1 1 + exp ⁡ ( − z ) = σ ( z ) \begin{aligned} p(C_1|\boldsymbol x) &= \frac 1 {1+ \exp(-z)} \\ & = \sigma(z) \end{aligned} p(C1∣x)=1+exp(−z)1=σ(z)
其中 σ ( z ) \sigma(z) σ(z) 是 sigmoid function 。我们来看 z z z 这一项。变换一下可得：
z = ln ⁡ p ( x ∣ C 1 ) p ( C 1 ) p ( x ∣ C 2 ) p ( C 2 ) = ln ⁡ p ( x ∣ C 1 ) p ( x ∣ C 2 ) + ln ⁡ p ( C 1 ) p ( C 2 ) = ln ⁡ p ( x ∣ C 1 ) p ( x ∣ C 2 ) + ln ⁡ k m − k \begin{aligned} z&=\ln\frac{ p(\boldsymbol x|C_1)p(C_1)}{p(\boldsymbol x|C_2)p(C_2)} \\ &=\ln \frac{ p(\boldsymbol x|C_1)} { p(\boldsymbol x|C_2)}+\ln \frac {p(C_1)}{p(C_2)} \\ &=\ln \frac{ p(\boldsymbol x|C_1)} { p(\boldsymbol x|C_2)}+\ln \frac{k}{m-k} \end{aligned} z=lnp(x∣C2)p(C2)p(x∣C1)p(C1)=lnp(x∣C2)p(x∣C1)+lnp(C2)p(C1)=lnp(x∣C2)p(x∣C1)+lnm−kk
其中，后面那一项是一个常数，接下来看前面这一项，我们将高斯分布代进去：
ln ⁡ p ( x ∣ C 1 ) p ( x ∣ C 2 ) = ln ⁡ 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) } 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) } = − 1 2 [ ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) − ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) ] = − 1 2 [ x T Σ − 1 x − μ 1 T Σ − 1 x − x T Σ − 1 μ 1 + μ 1 T Σ − 1 μ 1 − x T Σ − 1 x + μ 2 T Σ − 1 x + x T Σ − 1 μ 2 − μ 2 T Σ − 1 μ 2 ] \begin{aligned} \ln \frac{ p(\boldsymbol x|C_1)} { p(\boldsymbol x|C_2)}&= \ln \frac {\frac 1 {(2 \pi)^{D/2}} \frac {1} {| \Sigma |^{1/2}} \exp \{ -\frac 1 2 (\boldsymbol x- \boldsymbol \mu_1)^T {\boldsymbol \Sigma}^{-1} (\boldsymbol x- \boldsymbol \mu_1) \}} {\frac 1 {(2 \pi)^{D/2}} \frac {1} {| \Sigma |^{1/2}} \exp \{ -\frac 1 2 (\boldsymbol x- \boldsymbol \mu_2)^T {\boldsymbol \Sigma}^{-1} (\boldsymbol x- \boldsymbol \mu_2) \}} \\ &=-\frac 1 2 [(\boldsymbol x- \boldsymbol \mu_1)^T {\boldsymbol \Sigma}^{-1} (\boldsymbol x- \boldsymbol \mu_1)-(\boldsymbol x- \boldsymbol \mu_2)^T {\boldsymbol \Sigma}^{-1} (\boldsymbol x- \boldsymbol \mu_2)] \\ &=-\frac 1 2 [\boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol x - \boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol x -\boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1 + \boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1 - \\ & \ \ \ \ \ \ \boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol x + \boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol x +\boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 - \boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 ] \end{aligned} lnp(x∣C2)p(x∣C1)=ln(2π)D/21∣Σ∣1/21exp{−21(x−μ2)TΣ−1(x−μ2)}(2π)D/21∣Σ∣1/21exp{−21(x−μ1)TΣ−1(x−μ1)}=−21[(x−μ1)TΣ−1(x−μ1)−(x−μ2)TΣ−1(x−μ2)]=−21[xTΣ−1x−μ1TΣ−1x−xTΣ−1μ1+μ1TΣ−1μ1− xTΣ−1x+μ2TΣ−1x+xTΣ−1μ2−μ2TΣ−1μ2]
其中 μ 1 T Σ − 1 x = x T Σ − 1 μ 1 \boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol x =\boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1 μ1TΣ−1x=xTΣ−1μ1 ， μ 2 T Σ − 1 x = x T Σ − 1 μ 2 \boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol x =\boldsymbol x^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 μ2TΣ−1x=xTΣ−1μ2 ，所以有：
ln ⁡ p ( x ∣ C 1 ) p ( x ∣ C 2 ) = − 1 2 [ − 2 μ 1 T Σ − 1 x + μ 1 T Σ − 1 μ 1 + 2 μ 2 T Σ − 1 x − μ 2 T Σ − 1 μ 2 ] = ( μ 1 − μ 2 ) T Σ − 1 x − 1 2 [ μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ] \begin{aligned} \ln \frac{ p(\boldsymbol x|C_1)} { p(\boldsymbol x|C_2)} &=-\frac 1 2 [ - 2\boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol x + \boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1 + 2\boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol x - \boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 ] \\ &=(\boldsymbol \mu_1-\boldsymbol \mu_2)^T {\boldsymbol \Sigma}^{-1} \boldsymbol x -\frac 1 2[\boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1-\boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 ] \end{aligned} lnp(x∣C2)p(x∣C1)=−21[−2μ1TΣ−1x+μ1TΣ−1μ1+2μ2TΣ−1x−μ2TΣ−1μ2]=(μ1−μ2)TΣ−1x−21[μ1TΣ−1μ1−μ2TΣ−1μ2]
将上式代回去：
z = ln ⁡ p ( x ∣ C 1 ) p ( x ∣ C 2 ) + ln ⁡ k m − k = ( μ 1 − μ 2 ) T Σ − 1 x − 1 2 [ μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ] + ln ⁡ k m − k \begin{aligned} z&=\ln \frac{ p(\boldsymbol x|C_1)} { p(\boldsymbol x|C_2)}+\ln \frac{k}{m-k} \\ &=(\boldsymbol \mu_1-\boldsymbol \mu_2)^T {\boldsymbol \Sigma}^{-1} \boldsymbol x -\frac 1 2[\boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1-\boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 ] + \ln \frac{k}{m-k} \end{aligned} z=lnp(x∣C2)p(x∣C1)+lnm−kk=(μ1−μ2)TΣ−1x−21[μ1TΣ−1μ1−μ2TΣ−1μ2]+lnm−kk
其中， ( μ 1 − μ 2 ) T Σ − 1 (\boldsymbol \mu_1-\boldsymbol \mu_2)^T {\boldsymbol \Sigma}^{-1} (μ1−μ2)TΣ−1 是一个常数，记为 w T \boldsymbol w^T wT ， − 1 2 [ μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ] + ln ⁡ k m − k -\frac 1 2[\boldsymbol \mu_1^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_1-\boldsymbol \mu_2^T {\boldsymbol \Sigma}^{-1} \boldsymbol \mu_2 ] + \ln \frac{k}{m-k} −21[μ1TΣ−1μ1−μ2TΣ−1μ2]+lnm−kk 也是一个常数，记为 b \boldsymbol b b ，则上式就变成了 z = w ⋅ x + b z = \boldsymbol w \cdot \boldsymbol x + \boldsymbol b z=w⋅x+b ，可以看到这是一个线性函数。而我们的分类边界是 p ( C 1 ∣ x ) = σ ( z ) = 0.5 p(C_1|\boldsymbol x) = \sigma(z) = 0.5 p(C1∣x)=σ(z)=0.5 ，即：
1 1 + exp ⁡ ( − z ) = 0.5 exp ⁡ ( − z ) = 1 z = w ⋅ x + b = 0 \begin{aligned} \frac 1 {1+\exp(-z)} &= 0.5 \\ \exp(-z) &= 1 \\ z = \boldsymbol w \cdot \boldsymbol x + \boldsymbol b&=0 \\ \end{aligned} 1+exp(−z)1exp(−z)z=w⋅x+b=0.5=1=0
所以是一个线性的分类边界。既然我们去算均值，去算协方差，最后其实就是去算 w \boldsymbol w w 和 b \boldsymbol b b ，那么为什么不直接去算 w \boldsymbol w w 和 b \boldsymbol b b 呢？其实也是有这种方法的，也就是后面要讲的 Logistic Regression。

Logistic Regression

Logistic Regression 是从线性函数 h θ ( x ) = θ T x h_{\boldsymbol \theta}(\boldsymbol x)=\boldsymbol \theta^T \boldsymbol x hθ(x)=θTx 出发来进行分类的分类模型，虽然名字中有 Regression，但实际不是用来做回归任务的，而是做分类任务的。让我们先从线性回归模型来讲起，让我们忘掉我们前面所讲的概率生成模型，忘记贝叶斯，假设我们只学过最开始学的线性回归模型，现在有一个数据集让我们来做一个二分类任务。那么容易想到的一点是，我们可以把两类样本的标签分别记为 0 和 1 来进行线性回归模型的训练。但是我们的线性回归模型的输出值是连续的，也就是说一般不会正好为 0 或 1 ，那么我们就让结果大于0.5时认为是1，小于 0.5 时认为是 0 ，这样我们就能用线性回归模型来做这个分类任务了。

然而，直觉也能让我们感觉到，这么做是会有问题的。因为我们的模型的目标是要输出结果尽可能接近 0 或 1 ，如果对于一个标签为 1 的数据，模型输出结果远大于 1 的话也会被认为是不好的，然而实际我们应该认为这是很好的，因为他离 0 更远了。所以可以想到，我们可以在与 1 比较前对线性函数的输出做一个变换，让他的值域缩小到 [0,1] 范围内，并且当线性函数的结果越大，变换后的结果应该越接近 1 ，否则应该越接近 0 。那么一个可以使用的变换就是 sigmoid function σ ( z ) \sigma(z) σ(z) ：
σ ( z ) = 1 1 + exp ⁡ ( − z ) \sigma(z) = \frac 1 {1+\exp(-z)} σ(z)=1+exp(−z)1

[机器学习] 分类(Classification)——贝叶斯分类 (Bayes Classification) 和逻辑回归 (Logistic Regression)

所以我们的分类模型即为

h θ ( x ) = 1 1 + e − θ T x h_{\boldsymbol \theta}(\boldsymbol x)=\frac 1 {1+e^{-\boldsymbol \theta^T \boldsymbol x}} hθ(x)=1+e−θTx1

Goodness of a function

那么我们怎么来评价我们所找到的参数 θ \boldsymbol \theta θ 的好坏呢？我们知道，对于属于类别 1 的数据 x \boldsymbol x x 我们是希望他的输出 h θ ( x ) h_{\boldsymbol \theta}(\boldsymbol x) hθ(x) 是尽可能接近 1 的，反之则尽可能接近 0 。所以可以定义所有样本的结果的乘积为整体模型的好坏的数值上的评价，即：
L ( θ ) = h θ ( x 1 ) h θ ( x 2 ) ( 1 − h θ ( x 3 ) ) ⋯ h θ ( x m ) L(\boldsymbol \theta) = h_{\boldsymbol \theta}(\boldsymbol x^1)h_{\boldsymbol \theta}(\boldsymbol x^2)(1-h_{\boldsymbol \theta}(\boldsymbol x^3))\cdots h_{\boldsymbol \theta}(\boldsymbol x^m) L(θ)=hθ(x1)hθ(x2)(1−hθ(x3))⋯hθ(xm)
其中，当 y i = 0 y^i=0 yi=0 时，乘积项是 1 − h θ ( x i ) 1-h_{\boldsymbol \theta}(\boldsymbol x^i) 1−hθ(xi) ，否则是 h θ ( x i ) h_{\boldsymbol \theta}(\boldsymbol x^i) hθ(xi) 。我们的目标就是得到使 L L L 最大时的 θ \boldsymbol \theta θ 值。对两边取对数，依然不改变结果，
ln ⁡ L ( θ ) = ln ⁡ h θ ( x 1 ) + ln ⁡ h θ ( x 2 ) + ln ⁡ ( 1 − h θ ( x 3 ) ) + ⋯ + ln ⁡ h θ ( x m ) \ln L(\boldsymbol \theta) = \ln h_{\boldsymbol \theta}(\boldsymbol x^1)+\ln h_{\boldsymbol \theta}(\boldsymbol x^2)+\ln (1-h_{\boldsymbol \theta}(\boldsymbol x^3))+ \cdots + \ln h_{\boldsymbol \theta}(\boldsymbol x^m) lnL(θ)=lnhθ(x1)+lnhθ(x2)+ln(1−hθ(x3))+⋯+lnhθ(xm)
将两边取负号，记 J ( θ ) = − ln ⁡ L ( θ ) J(\boldsymbol \theta) =-\ln L(\boldsymbol \theta) J(θ)=−lnL(θ) ，将问题转化为求 J J J 最小时的 θ \boldsymbol \theta θ ，即
J ( θ ) = − ln ⁡ h θ ( x 1 ) − ln ⁡ h θ ( x 2 ) − ln ⁡ ( 1 − h θ ( x 3 ) ) − ⋯ − ln ⁡ h θ ( x m ) J(\boldsymbol \theta) = -\ln h_{\boldsymbol \theta}(\boldsymbol x^1)-\ln h_{\boldsymbol \theta}(\boldsymbol x^2)-\ln (1-h_{\boldsymbol \theta}(\boldsymbol x^3))- \cdots - \ln h_{\boldsymbol \theta}(\boldsymbol x^m) J(θ)=−lnhθ(x1)−lnhθ(x2)−ln(1−hθ(x3))−⋯−lnhθ(xm)
将 J J J 写成求和形式，有
J ( θ ) = − ∑ i = 1 m [ y i ln ⁡ h θ ( x i ) + ( 1 − y i ) ln ⁡ ( 1 − h θ ( x i ) ) ] J(\boldsymbol \theta) = - \sum_{i=1}^m[y^i\ln h_{\boldsymbol \theta}(\boldsymbol x^i)+(1-y^i)\ln(1-h_{\boldsymbol \theta}(\boldsymbol x^i))] J(θ)=−i=1∑m[yilnhθ(xi)+(1−yi)ln(1−hθ(xi))]
仔细分析 y i = 1 y^i = 1 yi=1 和 y i = 0 y^i=0 yi=0 的结果，可以发现上面两个式子是一样的， J J J 也被称为损失函数，用于度量模型的损失值。所以我们的目标就是最小化损失，即：
min ⁡ θ J ( θ ) \min_{\boldsymbol \theta} J(\boldsymbol \theta) θminJ(θ)

Find the best θ \theta θ

寻找 J J J 最小时的 θ \boldsymbol \theta θ 依然可以采用梯度下降的方法，其中需要计算梯度，下面推导梯度的计算公式：
∂ J ( θ ) ∂ θ j = − ∑ i = 1 m [ y i ∂ ln ⁡ h θ ( x i ) ∂ θ j + ( 1 − y i ) ∂ ln ⁡ ( 1 − h θ ( x i ) ) ∂ θ j ] \begin{aligned} \frac {\partial J(\boldsymbol \theta)} {\partial \theta_j} &= -\sum_{i=1}^m[y^i \frac {\partial \ln h_{\boldsymbol \theta}(\boldsymbol x^i)}{\partial \theta_j}+(1-y^i) {\frac {\partial \ln (1-h_{\boldsymbol \theta}(\boldsymbol x^i))} {\partial \theta_j}}] \end{aligned} ∂θj∂J(θ)=−i=1∑m[yi∂θj∂lnhθ(xi)+(1−yi)∂θj∂ln(1−hθ(xi))]
其中 h θ ( x ) = σ ( z ) h_{\boldsymbol \theta}(\boldsymbol x) = \sigma(z) hθ(x)=σ(z) ， z = θ T x z = \boldsymbol \theta^T \boldsymbol x z=θTx ，则由链式法则（复合函数求导法则）：
∂ ln ⁡ h θ ( x i ) ∂ θ j = ∂ ln ⁡ σ ( z i ) ∂ z i ∂ z i ∂ θ j = 1 σ ( z ) σ ( z ) ( 1 − σ ( z ) ) x j i = ( 1 − h θ ( x i ) ) x j i \begin{aligned} \frac {\partial \ln h_{\boldsymbol \theta}(\boldsymbol x^i)}{\partial \theta_j} &= \frac {\partial \ln \sigma(z^i)}{\partial z^i} \frac {\partial z^i}{\partial \theta_j} \\ &=\frac 1 {\sigma(z)} \sigma(z)(1-\sigma(z))x_j^i \\ &= (1- h_{\boldsymbol \theta}(\boldsymbol x^i))x^i_j \end{aligned} ∂θj∂lnhθ(xi)=∂zi∂lnσ(zi)∂θj∂zi=σ(z)1σ(z)(1−σ(z))xji=(1−hθ(xi))xji

∂ ln ⁡ ( 1 − h θ ( x i ) ) ∂ θ j = ∂ ln ⁡ ( 1 − σ ( z i ) ) ∂ z i ∂ z i ∂ θ j = 1 1 − σ ( z ) [ − σ ( z ) ( 1 − σ ( z ) ) ] x j i = − h θ ( x i ) x j i \begin{aligned} \frac {\partial \ln (1-h_{\boldsymbol \theta}(\boldsymbol x^i))}{\partial \theta_j} &= \frac {\partial \ln (1-\sigma(z^i))}{\partial z^i} \frac {\partial z^i}{\partial \theta_j} \\ &=\frac 1 {1-\sigma(z)} [-\sigma(z)(1-\sigma(z))]x_j^i \\ &= - h_{\boldsymbol \theta}(\boldsymbol x^i)x^i_j \end{aligned} ∂θj∂ln(1−hθ(xi))=∂zi∂ln(1−σ(zi))∂θj∂zi=1−σ(z)1[−σ(z)(1−σ(z))]xji=−hθ(xi)xji

将两个式子代回去，得到
∂ J ( θ ) ∂ θ j = − ∑ i = 1 m [ y i ( 1 − h θ ( x i ) ) x j i + ( 1 − y i ) ( − h θ ( x i ) x j i ) ] = − ∑ i = 1 m ( y i − h θ ( x i ) ) x j i \begin{aligned} \frac {\partial J(\boldsymbol \theta)} {\partial \theta_j} &= -\sum_{i=1}^m[y^i (1- h_{\boldsymbol \theta}(\boldsymbol x^i))x^i_j+(1-y^i)(- h_{\boldsymbol \theta}(\boldsymbol x^i)x^i_j)] \\ &=-\sum_{i=1}^m(y^i - h_{\boldsymbol \theta}(\boldsymbol x^i)) x^i_j \end{aligned} ∂θj∂J(θ)=−i=1∑m[yi(1−hθ(xi))xji+(1−yi)(−hθ(xi)xji)]=−i=1∑m(yi−hθ(xi))xji
如果还记得的话，这个求偏导后的结果的形式和线性回归中的是一样的，只是 h θ ( x ) h_{\boldsymbol \theta}(\boldsymbol x) hθ(x) 的计算公式不同。

Why not square error

上面的目标函数都是从最大化下面这个函数出来的，而这个函数又是我们自己定义的
L ( θ ) = h θ ( x 1 ) h θ ( x 2 ) ( 1 − h θ ( x 3 ) ) ⋯ h θ ( x m ) L(\boldsymbol \theta) = h_{\boldsymbol \theta}(\boldsymbol x^1)h_{\boldsymbol \theta}(\boldsymbol x^2)(1-h_{\boldsymbol \theta}(\boldsymbol x^3))\cdots h_{\boldsymbol \theta}(\boldsymbol x^m) L(θ)=hθ(x1)hθ(x2)(1−hθ(x3))⋯hθ(xm)
那么一个很自然的想法就是，为什么我们不用线性回归中的最小化差值的平方的均值来找 θ \boldsymbol \theta θ 呢？我们可以来尝试一下，如果用这个的话，我们的损失函数就变成了：
J ( θ ) = 1 2 m ∑ i = 1 m ( y i − h θ ( x ) ) 2 J(\boldsymbol \theta) = \frac 1 {2m} \sum_{i=1}^m(y^i - h_{\boldsymbol \theta}(\boldsymbol x))^2 J(θ)=2m1i=1∑m(yi−hθ(x))2
那么求偏导后的结果就是：
∂ J ( θ ) ∂ θ j = 1 2 m ∑ i = 1 m 2 ( y i − h θ ( x ) ) ( − ∂ h θ ( x ) ∂ θ j ) = − 1 m ∑ i = 1 m ( y i − h θ ( x ) ) h θ ( x ) ( 1 − h θ ( x ) ) \begin{aligned} \frac {\partial J(\boldsymbol \theta)} {\partial \theta_j} &= \frac 1 {2m} \sum_{i=1}^m2(y^i - h_{\boldsymbol \theta}(\boldsymbol x))(-\frac {\partial h_{\boldsymbol \theta}(\boldsymbol x) }{\partial \theta_j}) \\ &= - \frac 1 {m} \sum_{i=1}^m(y^i - h_{\boldsymbol \theta}(\boldsymbol x))h_{\boldsymbol \theta}(\boldsymbol x) (1-h_{\boldsymbol \theta}(\boldsymbol x) ) \end{aligned} ∂θj∂J(θ)=2m1i=1∑m2(yi−hθ(x))(−∂θj∂hθ(x))=−m1i=1∑m(yi−hθ(x))hθ(x)(1−hθ(x))
那么假设训练集中有一个数据，他的分类标签是 1 ，但是经过 h θ ( x ) h_{\boldsymbol \theta}(\boldsymbol x) hθ(x) 后得到的结果是 0 ，也就是说这个模型分类的结果非常错，按理说应该会狠狠的更新一下 θ \theta θ ，但是将这两个参数带进偏导公式可以得到偏导是 0 ，也就是说不会更新。

让我们把两种损失函数的取值与 θ \theta θ 的取值的图画出来，最上面的那种计算损失的方式也叫交叉熵。可以看到在红色的平面上，有些地方是非常平的，在我们的梯度下降中，就会造成基本不更新参数而被误认为已经到达了极值点。

Multi-class Classification

多分类任务其实可以通过训练多个函数，每个类对应一个函数，如果属于这个类，则标签设为 1 ，否则设为 0 。这样多个函数就会有多个结果，假设有 n n n 个，记为 z i z_i zi 。经过一个 Softmax function 得到属于第 i i i 类的概率：
y i = e z i ∑ j = 1 n e z j y_i = \frac {e^{z_i}} {\sum_{j=1}^ne^{z_j}} yi=∑j=1nezjezi