【发布时间】:2021-11-05 17:45:07
【问题描述】:
FastText 中的Gensim's 实现似乎比Facebook's 原生实现更小。 100万词的语料,fasttext native模型为6GB,而gensim fasttext模型大小仅为68MB。
是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中?
【问题讨论】:
标签: python machine-learning nlp gensim fasttext
FastText 中的Gensim's 实现似乎比Facebook's 原生实现更小。 100万词的语料,fasttext native模型为6GB,而gensim fasttext模型大小仅为68MB。
是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中?
【问题讨论】:
标签: python machine-learning nlp gensim fasttext
请说明是哪些模型产生了这种比较,或者使用了什么过程。它可能有错误/误解。
与“语料库”大小相比,模型的大小受唯一词(和字符 n-gram 桶)数量的影响更大。
Gensim 训练的 FastText 模型或原生 Facebook FastText 训练的模型的保存大小应该大致相同。请务必包含由 Gensim 的 .save() 创建的所有附属原始 numpy 文件(以 .npy 结尾,以及主保存文件) - 因为所有这些文件都需要重新.load() 模型!
同样,如果您要将 Facebook FastText 模型加载到 Gensim 中,然后使用 Gensim 的 .save(),则两种替代格式占用的总磁盘空间应该非常接近。
【讨论】: