【问题标题】:Are fasttext Wiki word vectors monolingual?fasttext Wiki 词向量是单语的吗?
【发布时间】:2021-04-07 23:32:28
【问题描述】:

阅读 Bojanowski 等人的论文后。 (2016),我去fasttext网站上查阅了可用的预训练词向量。

这是我的具体疑问:

这些预训练的词向量 (https://fasttext.cc/docs/en/pretrained-vectors.html) 是单语的吗?类似地,你能确认这些预训练的词向量 (https://fasttext.cc/docs/en/crawl-vectors.html) 是多语言的吗?

如果这点已经在某处得到澄清,我深表歉意,但我无法 100% 确定地核实。

提前致谢。

参考:P. Bojanowski、E. Grave、A. Joulin、T. Mikolov,用子词信息丰富词向量

【问题讨论】:

  • 网页清楚地说明了这一点,不是吗?在每种情况下,都有一组向量,每个向量都是单语的。
  • @TimRoberts 我认为不是很清楚。例如,在第一个链接中,他们显示以下注释:“...请注意,更新版本的多语言词向量可在:157 种语言的词向量中获得。”这是否意味着当前的词向量也是多语言的?

标签: python word-embedding fasttext


【解决方案1】:

页面地址:https://fasttext.cc/docs/en/pretrained-vectors.html

  • 提供 294 种不同语言标记的向量集,每个向量仅用一种语言标记
  • 将模型描述为“使用 Bojanowski 等人 (2016) 中描述的带有默认参数的 skip-gram 模型”训练的模型 - 一篇描述创建多语言向量的论文

因此,可以安全地假设它们都不是明确的多语言。 (如果有一个或多个,它们不会被清楚地标明吗?)

同样,考虑到页面:https://fasttext.cc/docs/en/crawl-vectors.html

  • 页面文本中的任何位置均不包含“多语言”一词
  • 提供 158 种不同语言标记的向量集,每个向量仅用一种语言标记

因此,我也认为可以肯定地假设它们都不是明确的多语言。 (如果您认为其中一个或多个是,请尝试下载它们,看看它们是否能在您推测的任何多种语言中提供良好的结果,在没有描述的情况下,它们可能涵盖。)

我相信你强调的那句话,“…a newer version of multi-lingual word vectors are available at…”,将“多语言词向量”松散地用作“多语言词向量”,并描述了页面的全部内容,而不是任何一次下载。

请注意,稍后的工作会对齐备用语言的词向量集,以便相同(ish)的含义具有相似的坐标:

https://fasttext.cc/docs/en/aligned-vectors.html

但是,即使在那里,每种语言的向量也是作为单个下载提供的。

有如此多的冲突标记和冲突子词,它们在不同语言中意味着非常不同的事物,因此很难为多种语言提供一个可用的单一模型,仅考虑单个词标记(没有完整的上下文提供额外的作者意图语言提示)。

【讨论】:

  • 感谢您的回答。对于第一个链接,您说可以安全地假设它们都不是明确的语言。所以可以安全地假设他们都是单语的吗?请检查此链接 (github.com/facebookresearch/…),他们在其中提到他们是单语的。
  • 它表示每个集合都经过训练以涵盖某种单一的目标语言。 (在维基百科文本训练向量的情况下,来自声称使用该语言的维基百科文章。)但是考虑到许多语言在真实文本中一起使用的方式,每种语言可能都有一些来自其他语言的单词。这就是为什么我会说没有一个是“明确的多语言”。但严格称它们为“单语”可能太过分了——你必须进行实验。你的目标是什么?
  • 我的目标是使用单语和多语进行实验,然后比较结果。此外,我还有一个目的是尝试词嵌入的跨语言迁移,这意味着了解它们是多语言还是单语言。
  • 在您的情况下,“多语言”向量的示例是什么? (即使是 FastText 跨语言“对齐”向量也在单独的文件中,但兼容的坐标空间,因此使用它们来分析新文本需要推导/假定的语言,以选择要使用的集合。)最终,它可能是将任何一组向量最终描述为“单语”或“多语”的过度简化。相反,我们只知道他们接受了哪些训练——通常是归类为某种语言的文本,但实际上通常也包含少量其他语言的单词。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-10-14
  • 2020-07-05
  • 1970-01-01
  • 1970-01-01
  • 2021-02-18
  • 2019-03-07
  • 1970-01-01
相关资源
最近更新 更多