【发布时间】:2019-08-01 11:08:25
【问题描述】:
我正在尝试使用机器学习执行一些文本分类,为此我使用简单的词袋方法(计数向量器)和 tfidf 向量器从每个处理的文本数据中提取了特征向量。
现在我想使用 word2vec 即词嵌入作为我的特征向量,类似于计数向量器/tfidf 向量器的特征向量,我应该能够从训练数据中学习词汇并使用学习的词汇转换或拟合测试数据,但我找不到实现它的方法。
//I need something like this with word2vec
count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)
//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))
【问题讨论】:
-
您的问题到底是什么?请提供更多详细信息
标签: machine-learning scikit-learn word2vec text-classification word-embedding