【问题标题】:How can I load chinese fasttext model with gensim?如何使用 gensim 加载中文 fasttext 模型?
【发布时间】:2020-03-20 17:31:17
【问题描述】:

在尝试使用 gensim 加载中文 fasttext 模型(cc.zh.300.bin)时,我遇到了以下错误

UnicodeDecodeError:'utf-8' 编解码器无法解码位置 0 中的字节 0xba: 无效的起始字节

有人可以帮帮我吗?详细错误如下:

【问题讨论】:

    标签: gensim fasttext


    【解决方案1】:

    KeyedVectors.load_word2vec_format() 方法仅加载 Google 原始 word2vec.c 代码使用的纯文字和向量格式的文件。预计它不适用于 FastText 格式的文件。

    您应该尝试使用专门用于 FastText 格式文件的方法 load_facebook_vectors()

    https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_vectors

    对于某些用途,备用load_facebook_model() 也可能是合适的:

    https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model

    【讨论】:

    • 非常感谢。我会使用 load_facebook_vectors() 因为它更快
    猜你喜欢
    • 2018-10-14
    • 1970-01-01
    • 2020-08-27
    • 2020-12-17
    • 1970-01-01
    • 2018-06-09
    • 2020-06-26
    • 2020-07-08
    • 1970-01-01
    相关资源
    最近更新 更多