【发布时间】:2021-10-29 01:30:52
【问题描述】:
我是 NLP 和 doc2Vec 的新手。我想了解doc2Vec的参数。谢谢
Doc2Vec(dm=0, vector_size=300, negative=5, hs=0, sample = 0, seed=0)
-
vector_size:我相信这是为了控制过拟合。更大的特征向量将学习更多细节,因此它往往会过度拟合。有没有一种方法可以根据文档的数量或所有文档中的总字数来确定合适的向量大小?
-
否定:应该画多少“噪音词”。什么是干扰词?
-
sample:配置哪些高频词随机下采样的阈值。那么sample=0是什么意思呢?
【问题讨论】:
标签: doc2vec