【发布时间】:2019-12-11 09:29:46
【问题描述】:
我想使用 gensim 从 fasttext 库中加载预训练的多语言词嵌入;这里是嵌入的链接:
https://fasttext.cc/docs/en/crawl-vectors.html
特别是,我想加载以下词嵌入:
- cc.de.300.vec (4.4 GB)
- cc.de.300.bin (7 GB)
Gensim 提供以下两种加载 fasttext 文件的选项:
-
gensim.models.fasttext.load_facebook_model(path, encoding='utf-8')- 从 Facebook 的原生 fasttext 加载隐藏输入的权重矩阵 .bin 输出文件。
- load_facebook_model() 加载完整模型,而不仅仅是 词嵌入,并使您能够继续模型训练。
-
gensim.models.fasttext.load_facebook_vectors(path, encoding='utf-8')- 从以 Facebook 的原生 fasttext .bin 格式保存的模型加载词嵌入。
- load_facebook_vectors() 仅加载词嵌入。它更快,但无法让您继续训练。
源 Gensim 文档: https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model
由于我的笔记本电脑只有 8 GB RAM,我会继续收到 MemoryErrors 或加载需要很长时间(长达几分钟)。
是否可以从磁盘加载这些大型模型以提高内存效率?
【问题讨论】:
标签: python nlp gensim word-embedding fasttext