1.词汇表征

词嵌入基础及其使用
one-hot,一句话,单词编号是多少,在哪个位置为1,其余为0。这种词表示方法的特点就是,没有保留句子中的上下文关系(任何词之间的内积为0),而这种上下文的关系在语言中是普遍存在的。
词嵌入基础及其使用
词嵌入应运而生:在左侧一栏是维度,表格中的值是每个词在这个维度(特征)上的取值(-1,+1),越相关,绝对值越大。
词嵌入基础及其使用
这里常用的可视化方法是t-SNE算法
嵌入(embedding)来源:在一个三维空间中,一个单词orange,对应一个三维特征向量,这个词 就被嵌入到一个点上了。

2. 使用词嵌入

词嵌入基础及其使用
词嵌入的单词之间的相似性可以帮助提升我们的NER任务,但是如果我们的标记训练集很小怎么办——找到一个已经预训练好的词向量,对任务会有很大提升。(迁移学习)

词嵌入基础及其使用
上面就是一般使用词嵌入的方法,原则是尽可能找预训练好的词向量作为我们初始词向量。
迁移学习的适用情况:当你从任务A迁移到任务B时,只有A有大量的数据,B中数据很少时,迁移过程才有用。
词嵌入基础及其使用
还记得之前学习的Siamese网络么,其是将一个人脸编码(f(x(i))、f(x(j)))为一个128维的表示。然后用相似度函数比较两张人脸的编码。但是词嵌入与人脸识别编码不同的是,任个一个照片,都能计算出一个编码,但是我们的词向量是有数量限制的,有一个固定的词汇表。
这里区别的原因:训练后的模型未来需要适用于海量不同的人脸照片,而自然语言处理领域的词汇表是固定的。

3. 词嵌入的特性

类比推理——词嵌入到底干了什么
词嵌入基础及其使用
我们可以发现一个有趣的特性:
词嵌入基础及其使用
词嵌入基础及其使用
这个结果表明,man和woman主要差异是gender维度上的差异,king和queen也是。
词嵌入基础及其使用
如何找到king对应的w,当man对应woman时?

词嵌入基础及其使用

词嵌入基础及其使用
使用余弦相似度可以测量两个嵌入词的相似度。角度越小,两个向量越相似。

词嵌入基础及其使用

词嵌入基础及其使用

4. 嵌入矩阵

词嵌入基础及其使用
嵌入矩阵每列是一个300维的向量,对应一个单词,用一个one-hot向量相乘,可以去除某个单词的词向量。
实际使用,会有一个嵌入层,更有效的提取出所需要的词向量。

5.学习词嵌入

6. Word2Vec

7. 负采样

8.GloVe词向量

9. 情感分类

10.词嵌入除偏

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-30
  • 2021-06-23
  • 2021-08-19
  • 2022-12-23
猜你喜欢
  • 2022-01-20
  • 2021-06-23
  • 2021-12-25
  • 2021-11-30
  • 2021-12-31
  • 2021-09-21
相关资源
相似解决方案