【发布时间】:2019-12-26 05:19:29
【问题描述】:
我使用python gensim 在包含 40,000,000 个文档的语料库上训练了一个 doc2vec 模型。该模型用于每天在数百万个文档上推断 docvec。为了确保稳定性,我将alpha 设置为一个较小的值和一个较大的steps,而不是设置一个恒定的随机种子:
from gensim.models.doc2vec import Doc2Vec
model = Doc2Vec.load('doc2vec_dm.model')
doc_demo = ['a','b']
# model.random.seed(0)
model.infer_vector(doc_demo, alpha=0.1, min_alpha=0.0001, steps=100)
doc2vec.infer_vector() 每次只接受一个文档,推断每个文档需要将近 0.1 秒。有没有API可以在每个推理步骤中处理一系列文档?
【问题讨论】: