CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

本文为笔者学习CS224N所做笔记，所包含内容不限于课程课件和讲义，还包括笔者对机器学习、神经网络的一些理解。所写内容难免有难以理解的地方，甚至可能有错误。如您在阅读中有疑惑或者建议，还望留言指正。笔者不胜感激！

分类问题

一般而言，训练数据由训练样本 $\{x_i,y_i\}^{N}_{i=1}$ 组成。 $x_i$ 表示输入（假定每个样本的维度为 $d$ ）， $y_i$ 表示类别（假定有 $C$ 个类别）。

线性分类器

在传统的机器学习方法中，对于训练样本，训练逻辑回归权重 $W\in R^{C \times d}$ ，使得超平面可以将点分隔开。注意，一个超平面只可以将空间划分为两个子空间，此处训练 $C$ 个超平面。

对于多分类来说，对于每一个 $x$ ，预测
$p(y|x)=\frac{exp(W_y · x)}{\sum_{c=1}^Cexp(W_c·x)}$
等式右侧为计算其属于真实类别的概率，我们希望其越大越好。

分类细节

对于某个类别 $c \in [1, C]$ ，可以训练得到一个权重 $W_c$ ，代表一个空间中的超平面的法向量。不失一般性，认为此法向量的方向所指向的空间为正例所在空间（属于此类别），法向量反方向所指向的空间为反例（不属于此类别）。故此超平面将空间中的点划分为两部分，一部分为 $c$ 类，一部分为非 $c$ 类。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

共有 $C$ 个类别，每个类别均有其所对应的超平面。若一个样本属于正例，可以认为其离超平面越远，属于此类的概率越高。因此，可以用超平面法向量 $W_c$ 和样本 $x$ 的点积， $W_c·x=f_y$ 得到样本点到超平面的距离，代表样本归属类别的概率（由于法向量有方向，存在负值的情况，负值代表不属于此类）。

最后，使用softmax函数，对计算得到的所有距离归一化，得到属于每个类别的概率值。
$p(y|x)=\frac{exp(f_y)}{\sum_{c=1}^Cexp(fc)}=\text{softmax}(f_y)$

目标函数

分类器的目标是所有样本的对于正确类别的概率分布最大，即
$max\ obj= \sum_{i=1}^N\prod_{c=1}^Cp(y_{ic}|x_i)^{y_{ic}}$
解释一下，求和项表示对所有样本进行求和，而求乘积项是属于每个概率的指数次方求连乘积。例如假定有3类，预测归属于每一类的概率分别为 $[0.1, 0.3, 0.6]$ ，而真实标签分布为 $[0, 0, 1]$ ，则需要计算 $0.1^0*0.3^0*0.6^1$ ，可见十分耗时。

然而对于所有类别，求乘积速度比求和慢；同时从习惯上，一般希望分类器误分类的损失最小，因此使用负对数概率对上式改写，得到负对数似然函数则有
$min\ obj= -\sum_{i=1}^N\sum_{c=1}^Cy_{ic}logp(y_{ic}|x_i)$
此时，乘积变为求和。习惯上成之为损失，用 $L$ 表示。
$L= -\sum_{i=1}^N\sum_{c=1}^Cy_{ic}logp(y_{ic}|x_i)$
此式和交叉熵的式子如出一辙。

交叉熵

交叉熵出自于信息论，用于评估两个分布的相似程度。越相似，则交叉熵越小，反之越大。令真实的概率分布为 $p$ ，模型得到的概率分布为 $q$ ，则两个分布的交叉熵为
$H(p, q)=-\sum_{c=1}^Cp(c)logq(c)$

整个数据集的分类

其实上面已经考虑过对整个数据集分类的损失，即
$L= -\sum_{i=1}^N\sum_{c=1}^Cy_{ic}logp(y_{ic}|x_i)$
一般而言，我们希望得到对于每个样本平均损失（平均误差），则有
$L= -\frac{1}{N}\sum_{i=1}^N\sum_{c=1}^Cy_{ic}logp(y_{ic}|x_i)$

神经网络分类器

很多时候，数据集并不能用超平面将数据分隔开，我们要寻找的分界面往往不是以“标准的超平面”存在于参数空间中，神经网络分类器的表现更好。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

神经元

一个神经元可以看做一个二分类逻辑回归单位。一个神经元由权重 $w$ ,偏置 $b$ ，非线性**函数 $f$ 和输入向量 $x$ 组成， $w，b$ 为神经网络的参数。
$h_{w,b}(x)=f(w^Tx+b)\\ f(z)=\frac{1}{1+e^{-z}}$
这里**函数使用的是sigmoid。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

如图，此时输入为向量 $x=[x_1, x_2, x_3,1]$ ，除1之外，每条连接到神经元的线均有一个权重系数 $w=[w_1,w_2,w_3]$ ，而在1和神经元连线上的为偏置项 $b$ 。计算 $h_{w,b}(x)=f(w^Tx+b)$ .

神经网络

为了增强表示能力，会将多个神经元组成神经网络。具体而言，我们将输入经过一层神经元的结果在连接另外一层神经元，如下图所示。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

图中表示一个三层神经网络，第一层为输入层，第二层为隐层，第三层为输出层（三层神经网络的习惯叫法）。当然也可以把隐层扩充为更多层的神经网络，形成一个更巨大和更复杂的神经网络。

相对于线性分类器，非线性的**函数是拟合复杂函数或寻找复杂的分解边界的关键。连续的没有非线性**函数的全连接层可以用一个全连接层来表示，即 $W_1W_2x=Wx$

命名实体识别(NER)

命名实体识别被称为Named Entity Recognition(NER)，其任务目标为找出语句中的名词并对其类别进行分类。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

NER的难点

很难去界定实体的边界，如有句子“First National Bank Donates 2 Vans To …”，很难去判断实体是First National Bank还是Nation Bank.
很难去判断一个词是否是实体。
很难去界定一个新词所属的类别（如新产生的流行用语）。
根据上下文，同一个词会有不同的含义，会产生歧义的情况。

使用线性分类器实现NER

将一个滑动窗口内词的词向量送入线性分类器，来预测中心词的词性。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

$X_{window}\in R^{5d}$ ， $d$ 表示词向量的维度

使用神经网络实现NER中的地点识别

建立一个三层的神经网络，输入同样为一个滑动窗口内的词向量，输出为一个得分，表示其属于“地点”的名词的得分（可以使用sigmoid**函数，将其置于限制在 $[0,1]$ 之间，来表示概率）。

CS224n 深度自然语言处理(三) Note - Word Window Classification, Neural Networks

注意到使用了**函数 $f(z)$ 来捕捉非线性关系。