CS224n-02 Word Vector Representations word2vec

02 Word Vector Representations word2vec

1、我们怎么表示一个单词的意思？

定义：意思这个单词。第一种是通过一个单词或者句子表示的意思；第二种是一个人想要取通过单词或者符号表示的意思；第三种是在写作或者一书中表示的意思。

一般的语言学对于意思的看法是：语言学中“meaning”近似于“指代、所指、符号”。

CS224n-02 Word Vector Representations word2vec

计算机如何对待意思？

通用的回答是：使用一种分类词典，就像是有着上位词关系的WordNet和同义词集。

离散表示的问题

1、同义词之间还是有细微的差别：adept, expert, good, practiced, proficient, skillful

2、缺少新词（不可能跟得上发展进步）：wicked, badass, nifty, *****, ace, wizard, genius, ninja

3、主观性

4、需要人类劳动去创造和整理

5、很难计算准确的词相似度（word similarity）

无论是基于规则还是统计学的NLP都把词看做最小的单元：hotel, conference, walk。词语只是词表长度的one-hot向量，这是一种局部表示（localist representation）。

从符号到分布式表示

这个问题从网页搜索开始说起：如果用户搜索【Dell notebook battery size】，我们将会在文档中匹配【Dell laptop battery capacity】，如果用户搜索【Seattle motel】我们匹配的文档将包含【Seattle hotel】。

但是

我们的查询结果和文档向量是正交的。在ont-hot向量中无法得到相似度。可以分别处理相似度;相反，我们探索一种直接的方法，即向量对其进行编码。

基于表示方法的分布式相似度计算（Distributional similarity based representations）

你可以通过它的邻居来代表一个词来获得很多的价值。大多数成功地想法之一是统计NLP。（暂时没懂）

学习神将网络词嵌入的基本想法

我们定义一个在把预测中心词和上下文词作为目标的词向量。

损失函数为：

这里的w−tw−t表示wtwt的上下文（负号通常表示除了某某之外），如果完美预测，损失函数为零。

我们在大的语料库中查看了很多t的位置。然后通过不断调整词向量来最小化损失函数。

直接学习低维词向量

• Learning representations by back-propagating errors (Rumelhart et al., 1986)

• A neural probabilistic language model (Bengio et al., 2003)

• NLP (almost) from Scratch (Collobert & Weston, 2008)

• A recent, even simpler and faster model: word2vec (Mikolov et al. 2013)

以前一直没有引起重视，直到Bengio展示了它的用处之大。后来研究才开始火热起来，并逐渐出现了更快更工业化的模型。（hankcs）