【发布时间】:2014-12-21 13:42:07
【问题描述】:
我熟悉使用 BOW 特征进行文本分类,其中我们首先找到语料库的词汇量大小,这成为我们特征向量的大小。对于每个句子/文档,以及它的所有组成词,我们然后根据该词在该句子/文档中的缺席/存在来放置 0/1。
但是,既然我正在尝试使用每个单词的向量表示,那么创建全局词汇表是否必不可少?
【问题讨论】:
-
什么是“全球词汇”?
-
我需要每个句子都有一个固定长度的特征向量,虽然每个句子的字数不同。所以我需要计算整个语料库的词汇量,并保持特征向量长度等于词汇量。这就是我所说的全球词汇。对困惑感到抱歉。我的话不够清楚。
标签: text vector nlp text-classification word2vec