【发布时间】:2020-03-20 17:31:17
【问题描述】:
在尝试使用 gensim 加载中文 fasttext 模型(cc.zh.300.bin)时,我遇到了以下错误
UnicodeDecodeError:'utf-8' 编解码器无法解码位置 0 中的字节 0xba: 无效的起始字节
有人可以帮帮我吗?详细错误如下:
【问题讨论】:
在尝试使用 gensim 加载中文 fasttext 模型(cc.zh.300.bin)时,我遇到了以下错误
UnicodeDecodeError:'utf-8' 编解码器无法解码位置 0 中的字节 0xba: 无效的起始字节
有人可以帮帮我吗?详细错误如下:
【问题讨论】:
KeyedVectors.load_word2vec_format() 方法仅加载 Google 原始 word2vec.c 代码使用的纯文字和向量格式的文件。预计它不适用于 FastText 格式的文件。
您应该尝试使用专门用于 FastText 格式文件的方法 load_facebook_vectors():
https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_vectors
对于某些用途,备用load_facebook_model() 也可能是合适的:
https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model
【讨论】: