【问题标题】:Why is gensim FastText model smaller in size than the native Fasttext model by Facebook?为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小?
【发布时间】:2021-11-05 17:45:07
【问题描述】:

FastText 中的Gensim's 实现似乎比Facebook's 原生实现更小。 100万词的语料,fasttext native模型为6GB,而gensim fasttext模型大小仅为68MB。

是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中?

【问题讨论】:

    标签: python machine-learning nlp gensim fasttext


    【解决方案1】:

    请说明是哪些模型产生了这种比较,或者使用了什么过程。它可能有错误/误解。

    与“语料库”大小相比,模型的大小受唯一词(和字符 n-gram 桶)数量的影响更大。

    Gensim 训练的 FastText 模型或原生 Facebook FastText 训练的模型的保存大小应该大致相同。请务必包含由 Gensim 的 .save() 创建的所有附属原始 numpy 文件(以 .npy 结尾,以及主保存文件) - 因为所有这些文件都需要重新.load() 模型!

    同样,如果您要将 Facebook FastText 模型加载到 Gensim 中,然后使用 Gensim 的 .save(),则两种替代格式占用的总磁盘空间应该非常接近。

    【讨论】:

    猜你喜欢
    • 2018-10-14
    • 2018-06-09
    • 1970-01-01
    • 2020-03-14
    • 1970-01-01
    • 2020-07-08
    • 2020-08-27
    • 1970-01-01
    • 2019-05-17
    相关资源
    最近更新 更多