【发布时间】:2019-05-08 20:59:10
【问题描述】:
我有一个使用 Doc2Vec 训练的语料库,如下所示:
d2vmodel = Doc2Vec(vector_size=100, min_count=5, epochs=10)
d2vmodel.build_vocab(train_corpus)
d2vmodel.train(train_corpus, total_examples=d2vmodel.corpus_count, epochs=d2vmodel.epochs)
使用向量,将文档与kmeans 聚类:
kmeans_model = KMeans(n_clusters=NUM_CLUSTERS, init='k-means++', random_state = 42)
X = kmeans_model.fit(d2vmodel.docvecs.vectors_docs)
labels=kmeans_model.labels_.tolist()
我想使用 k-means 对一个新文档进行聚类并知道它属于哪个聚类。我尝试了以下方法,但我认为 predict 的输入不正确。
from numpy import array
testdocument = gensim.utils.simple_preprocess('Microsoft excel')
cluster_label = kmeans_model.predict(array(testdocument))
感谢任何帮助!
【问题讨论】:
标签: cluster-analysis k-means doc2vec