类比特征

embedding,词嵌入,将两个相近的词嵌入向量相减,得到的向量中会有很多0。因为这两个词很相近所以他们有很多特征值是接近的。

比如用e_man-e_woman 约等于 e_king-e_queen这说明两类事物之间的关系很相似。

e_man-e_woman 约等于 e_king-e_w,

让计算机去找答案e_w是什么,很有可能得到结果是e_queen

图形化表示相似度(300维空间):两个向量是两个差,不同的点是在gender这一维度的差

词嵌入特性

t-sen使用非线性函数来把300维的向量映射到二维空间。

映射很复杂,可能原来在300维空间的向量映射完之后已经变形。

最常用相似度函数:余弦相似度

词嵌入特性

cos函数:cos0=1

所以两个相似的向量相减得到0

而cos0=1,他俩很相似。

一些相似的对:

词嵌入特性

只要从足够大的语料库中学习就能实现一个词嵌入算法。




相关文章:

  • 2021-11-12
  • 2021-06-15
  • 2021-11-11
  • 2022-01-13
  • 2021-05-29
  • 2021-10-24
  • 2021-06-29
  • 2021-05-28
猜你喜欢
  • 2021-11-24
  • 2021-12-09
  • 2022-03-06
  • 2022-12-23
  • 2021-10-14
  • 2021-06-01
  • 2021-10-24
相关资源
相似解决方案