有没有办法使用 load_word2vec_format 更快地加载 wiki-fasttext 模型

【问题标题】：Is there a way to load the wiki-fasttext model faster with load_word2vec_format有没有办法使用 load_word2vec_format 更快地加载 wiki-fasttext 模型
【发布时间】：2017-05-15 17:07:37
【问题描述】：

使用 gensim 库加载 wiki-fasttext 模型需要六分钟。

我知道缓存模型的方法，但我正在寻找加速初始模型加载的方法。具体api如下：

en_model = KeyedVectors.load_word2vec_format(os.path.join(root_dir, model_file))

当然，wiki-fasttext 是一个非常大的模型，但是我已经加载了许多语言的相同模型。

【问题讨论】：

标签： nlp stanford-nlp gensim fasttext

【解决方案1】：

您可以尝试使用limit=vector_num 参数从文件中加载vector_num 词向量。您不会加载所有向量，但可以加快加载过程。

【讨论】：

我希望根据英语维基百科从模型中删除未包含在我要分析的数据集中的词向量。 IE。我想从 FastText 模型加载向量子集。我怎样才能做到这一点？遍历模型并写入新模型会破坏类型。