【发布时间】:2023-03-24 23:46:01
【问题描述】:
我想用 gensim 制作 word2vec。听说词汇库应该是unicode,所以我把它转换成unicode。
# -*- encoding:utf-8 -*-
# !/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from gensim.models import Word2Vec
import pprint
with open('parsed_data.txt', 'r') as f:
corpus = map(unicode, f.read().split('\n'))
model = Word2Vec(size=128, window=5, min_count=5, workers=4)
model.build_vocab(corpus,keep_raw_vocab=False)
model.train(corpus)
model.save('w2v')
pprint.pprint(model.most_similar(u'너'))
以上是我的源代码。似乎工作得很好。但是词汇键有问题。我想制作使用 unicode 的韩语 word2vec。例如单词사과,这意味着英语道歉,它的unicode是\xC0AC\xACFC如果我尝试在word2vec中找到사과,就会发生关键错误...
而不是 \xc0ac\xacfc \xc0ac 和 \xacfc 分别存储。
是什么原因以及如何解决?
【问题讨论】:
标签: python unicode gensim word2vec