【发布时间】:2020-02-21 16:49:29
【问题描述】:
我有几千个文档,我想在 gensim doc2vec 模型中使用,但每个文档只有 5 克,而不是原始词序中的全文。在 gensim 网站 (https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html) 上的 doc2vec 教程中,使用全文创建了一个语料库,然后在该语料库上训练模型。它看起来像这样:
[TaggedDocument(words=['hundreds', 'of', 'people', 'have', 'been', 'forced', 'to', 'vacate', 'their', 'homes', 'in', 'the', 'southern',...], tags=[1]), TaggedDocument(words=[.....], tags=[2]),...]
是否可以创建一个训练语料库,其中每个文档由 5 克列表而不是按原始顺序排列的单词列表组成?
【问题讨论】: