1、Word2vec Skipgram总结:
存在缺点:
(1) 可解释性差
(2) 无法有效学习低频词向量
(3)上下文的考虑不多
(4) 窗口长度有限
(5) 无法考虑全局
(6) 严格意义的语序信息没有学到
对应的解决模型:
对于低频词和未登录词的向量学习可用subword模型(但中文不好使,英文可以),即把一个单词向量分解成子向量相加的形式, 计算出子单词的向量表示,再用子单词拼接成低频词,把低频词表示出来。
2、ELMO算法:
用神经网络(LSTM)计算出△word。
/3、
存在缺点:
(1) 可解释性差
(2) 无法有效学习低频词向量
(3)上下文的考虑不多
(4) 窗口长度有限
(5) 无法考虑全局
(6) 严格意义的语序信息没有学到
对应的解决模型:
对于低频词和未登录词的向量学习可用subword模型(但中文不好使,英文可以),即把一个单词向量分解成子向量相加的形式, 计算出子单词的向量表示,再用子单词拼接成低频词,把低频词表示出来。
用神经网络(LSTM)计算出△word。
/3、
相关文章: