【发布时间】:2019-06-23 01:48:31
【问题描述】:
背景:我一直在我的数据集上评估各种文本分类方法,包括使用从字数和 TF-IDF 派生的特征向量,然后通过各种分类器运行这些方法。我的数据集非常小(大约 2300 个句子和大约 5 个类),考虑到上述方法将不同的完全分开,想使用词向量方法进行分类。我使用了带有浅 NN 的预训练词向量,但收效甚微。
问题:我正在寻找一种使用词向量对句子进行分类的替代方法,并考虑将词向量用于一个句子,将它们组合成一个向量,然后取每类句子向量的质心 -然后通过新句子和质心之间的距离度量进行分类。
给定我的小数据集,如何将词向量组合成“句子向量”?
【问题讨论】:
-
你研究过 word2vec 和 doc2vec 吗?
标签: python text classification embedding