【发布时间】:2021-04-07 23:32:28
【问题描述】:
阅读 Bojanowski 等人的论文后。 (2016),我去fasttext网站上查阅了可用的预训练词向量。
这是我的具体疑问:
这些预训练的词向量 (https://fasttext.cc/docs/en/pretrained-vectors.html) 是单语的吗?类似地,你能确认这些预训练的词向量 (https://fasttext.cc/docs/en/crawl-vectors.html) 是多语言的吗?
如果这点已经在某处得到澄清,我深表歉意,但我无法 100% 确定地核实。
提前致谢。
参考:P. Bojanowski、E. Grave、A. Joulin、T. Mikolov,用子词信息丰富词向量
【问题讨论】:
-
网页清楚地说明了这一点,不是吗?在每种情况下,都有一组向量,每个向量都是单语的。
-
@TimRoberts 我认为不是很清楚。例如,在第一个链接中,他们显示以下注释:“...请注意,更新版本的多语言词向量可在:157 种语言的词向量中获得。”这是否意味着当前的词向量也是多语言的?
标签: python word-embedding fasttext