将分词进行向量化的表示

独热表示(one-hot representation)

仅符号化词,不包含任何语义信息。

词空间模型(word space model)

用于词义消歧。

目前被直接成为分布表示(distributional representation)<二十世纪90年代>

1.基于矩阵的分布表示

a.词-文档(该词所在文档)

比较稀疏

b.词-词(固定宽度的上下文)

比较稠密,效果优于词-文档

c.词-n元词组(unigram,bigram)

保留语序信息

2.基于聚类的分布方法

通过聚类手段构建词与其上下文间的关系。最经典的方法是布朗聚类(Brown clustering)

3.基于神经网络的分布方法

一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation),该方法通过神经网络进行建模,可表示复杂的上下文。

构建上下文与目标词之间的关系,最自然的一种思路是使用语言模型

语言模型

对一段文本的概率进行估计。

若文本太长,概率公式很复杂,故提出简化模型(n元模型,距离大于等于n的上文词会被忽略):

n=1 unigram model

n=2 bigram model

n=3 trigram model

自然语言处理——向量表示
一般选用3元组,当n较大会遇到数据稀疏问题。同时配合平滑算法降低数据稀疏带来的问题。

常用模型:

1.神经网络语言模型(NNLM)Neural Network Language Model

采用普通的三层前馈神经网络结构

输入层为条件部分的整个词序列(词向量顺序拼接),输出为目标词的分布

神经网络语言模型(NNLM)

神经网路语言模型(NNLM)的理解

2.log双线性语言模型(LBL)Log-Bilinear Language Model

log双线性结构

没有**函数tanh

只有一份词向量

3.循环神经网络语言模型(RNNLM)Recurrent Nerual Network based Language Model

可利用所有的上文信息,预测下一个词

模型逐个读入词,隐藏层不断更新,此时包含当前词的信息及上一个隐藏层的信息

4.C&W模型

上述模型都是求解条件概率,本模型是对n元短语打分(语料中出现的n元短语打高分)

第一个直接生成词向量

输入目标词在内的此信息,输出为打分值

5.CBOW模型(Continuous Bag-of-Words)

输入上下文,输出目标词

没有隐藏层,使用的是log线性结构

去除上下文各词的语序信息,使用各词词向量的平均值

6.Skip-gram模型

输入目标词,输出上下文

7.Order模型

输入上下文词向量的拼接

使用CBOW模型预测目标词
自然语言处理——向量表示
自然语言处理——向量表示

文章链接:基于神经网络的词和文档语义向量表示方法研究

相关文章: