【发布时间】:2020-03-22 13:56:52
【问题描述】:
我对大约 750k 个单词的文本运行了 word2vec 算法(在删除一些停用词之前)。使用我的模型,我开始查看与我选择的特定单词最相似的单词,并且相似度分数(对于 model.wv.most_similar 方法)都非常接近 1。第十个最接近的分数仍然像 0.998,所以我觉得我在单词的相似性之间没有任何显着差异,这会导致无意义的相似词。
我的模型构造函数是
model = Word2Vec(all_words, size=75, min_count=30, window=10, sg=1)
我认为问题可能在于我如何构建文本以运行神经网络。我像这样存储所有单词:
all_sentences = nltk.sent_tokenize(v)
all_words = [nltk.word_tokenize(sent) for sent in all_sentences]
all_words = [[word for word in all_words[0] if word not in nltk.stopwords('English')]]
...其中 v 是对 txt 文件调用 read() 的结果。
【问题讨论】:
标签: python machine-learning neural-network nlp word2vec