为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小？答案

【问题标题】：Why is gensim FastText model smaller in size than the native Fasttext model by Facebook?为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小？
【发布时间】：2021-11-05 17:45:07
【问题描述】：

FastText 中的Gensim's 实现似乎比Facebook's 原生实现更小。 100万词的语料，fasttext native模型为6GB，而gensim fasttext模型大小仅为68MB。

是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中？

【问题讨论】：

标签： python machine-learning nlp gensim fasttext

【解决方案1】：

请说明是哪些模型产生了这种比较，或者使用了什么过程。它可能有错误/误解。

与“语料库”大小相比，模型的大小受唯一词（和字符 n-gram 桶）数量的影响更大。

Gensim 训练的 FastText 模型或原生 Facebook FastText 训练的模型的保存大小应该大致相同。请务必包含由 Gensim 的 .save() 创建的所有附属原始 numpy 文件（以 .npy 结尾，以及主保存文件） - 因为所有这些文件都需要重新.load() 模型！

同样，如果您要将 Facebook FastText 模型加载到 Gensim 中，然后使用 Gensim 的 .save()，则两种替代格式占用的总磁盘空间应该非常接近。

【讨论】：

谢谢@gojomo！似乎我忘了计算 npy 文件的大小。顺便说一句，你能在这里查看我的 GitHub 问题：github.com/RaRe-Technologies/gensim/issues/3228 和 SO 问题：stackoverflow.com/questions/69127120/…
这似乎是一个错误。