类比特征
embedding,词嵌入,将两个相近的词嵌入向量相减,得到的向量中会有很多0。因为这两个词很相近所以他们有很多特征值是接近的。
比如用e_man-e_woman 约等于 e_king-e_queen这说明两类事物之间的关系很相似。
e_man-e_woman 约等于 e_king-e_w,
让计算机去找答案e_w是什么,很有可能得到结果是e_queen
图形化表示相似度(300维空间):两个向量是两个差,不同的点是在gender这一维度的差
t-sen使用非线性函数来把300维的向量映射到二维空间。
映射很复杂,可能原来在300维空间的向量映射完之后已经变形。
最常用相似度函数:余弦相似度
cos函数:cos0=1
所以两个相似的向量相减得到0
而cos0=1,他俩很相似。
一些相似的对:
只要从足够大的语料库中学习就能实现一个词嵌入算法。