【发布时间】:2017-08-27 04:53:20
【问题描述】:
我使用Gensim 的Word2Vec 来训练最相似的单词。
我的数据集是我大学社区网站上的所有帖子。
每个数据集的组成如下:
(title) + (contents) + (all comments) // String
例如,
data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"
所以,我有大约 400,000 个上述数据,并将它们作为向量并尝试通过 Word2Vec 训练这些数据。
我想知道是否可以让Word2Vec 考虑 WEIGHT,这意味着,如果我给某个数据向量赋予权重,Word2Vec 以这种数据向量中的每个单词都有更强的方式训练这个数据关系(相似性)。
例如,如果我给数据集 I like Pizza, Chicken 赋予权重 5,则词 Pizza 和 Chicken(或 like 和 Pizza 等)比其他数据向量的词具有更强的关系。
这可能吗?
很抱歉解释不佳,但我不是以英语为母语的人。如果需要更详细的信息,请发表评论。
【问题讨论】: