第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings)
2.1 词汇表征(Word Representation)
词汇表示,目前为止一直都是用词汇表来表示词,上周提到的词汇表,可能是 10000 个单词,我们一直用 one-hot 向量来表示词。这种表示方法的一大缺点就是它把每个词孤立起来,这样使得算法对相关词的泛化能力不强。
换一种表示方式会更好,如果不用 one-hot 表示,而是用特征化的表示来表示每个词,man,woman,king,queen,apple,orange 或者词典里的任何一个单词,我们学习这些词的特征或者数值。
举个例子,对于这些词,比如想知道这些词与 Gender(性别)的关系。假定男性的性别为-1,女性的性别为+1,那么 man 的性别值可能就是-1,而 woman 就是-1。最终根据经验 king 就是-0.95,queen 是+0.97,apple 和 orange 没有性别可言。
我们假设有 300 个不同的特征,这样的话就有了这一列数字(上图编号 1 所示),这里只写了 4 个,实际上是 300 个数字,这样就组成 了一个 300 维的向量来表示 man 这个词。接下来,我想用\(