使用 word2vec 词嵌入作为特征向量进行文本分类（类似于 count vectorizer/tfidf 特征向量）答案

【问题标题】：Use word2vec word embeding as feature vector for text classification (simlar to count vectorizer/tfidf feature vector)使用 word2vec 词嵌入作为特征向量进行文本分类（类似于 count vectorizer/tfidf 特征向量）
【发布时间】：2019-08-01 11:08:25
【问题描述】：

我正在尝试使用机器学习执行一些文本分类，为此我使用简单的词袋方法（计数向量器）和 tfidf 向量器从每个处理的文本数据中提取了特征向量。

现在我想使用 word2vec 即词嵌入作为我的特征向量，类似于计数向量器/tfidf 向量器的特征向量，我应该能够从训练数据中学习词汇并使用学习的词汇转换或拟合测试数据，但我找不到实现它的方法。

//I need something like this with word2vec

count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)

//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))

【问题讨论】：

您的问题到底是什么？请提供更多详细信息

标签： machine-learning scikit-learn word2vec text-classification word-embedding

【解决方案1】：

您首先应该了解什么是词嵌入。当您应用 CountVectorizer 或 TfIdfVectorizer 时，您会得到一个以稀疏方式表示的 sentence 表示，通常称为 One Hot 编码。词嵌入表示用于在实数的高维空间中表示词。

一旦您获得了每个单词的表示，有一些方法可以做到这一点，请查看：How to get vector for a sentence from the word2vec of tokens in sentence

【讨论】：

感谢您的链接。这正是我所说的。