【发布时间】:2022-01-24 05:58:30
【问题描述】:
我想下载并加载预训练的 word2vec 用于分析韩语文本。
我在这里下载预训练的 word2vec:https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view?resourcekey=0-Dq9yyzwZxAqT3J02qvnFwg 来自 30+ 种语言的 Github 预训练词向量:https://github.com/Kyubyong/wordvectors
我的 gensim 版本是 4.1.0,因此我使用了:
KeyedVectors.load_word2vec_format('./ko.bin', binary=False) 加载模型。但是有一个错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
我已经尝试了很多选项,包括在 stackoverflow 和 Github 中,但仍然无法正常工作。 你介意让我找到合适的解决方案吗?
谢谢,
【问题讨论】: