【发布时间】:2018-05-16 21:09:43
【问题描述】:
我想使用 text2vec 中实现的 GloVe 词嵌入来执行监督回归/分类。我在 text2vec 主页上阅读了有关如何生成词向量的有用教程。但是,我无法掌握如何进一步进行,即应用或转换这些词向量并将它们附加到每个文档,这样每个文档都由一个向量表示(我假设来自其组成词的向量),用作分类器的输入。我在网上遇到了一些针对简短文档的快速修复,但是我的文档相当冗长(电影字幕),并且似乎没有任何关于如何处理此类文档的指导 - 或者至少没有与我的理解水平相匹配的指导;我有使用 n-gram、字典和主题模型的经验,但词嵌入让我很困惑。
谢谢!
【问题讨论】:
-
您可以尝试 Doc2Vec(在 R 中不可用!),或者您可以尝试将词向量传递给 CNN。这是一个开始的链接:stackoverflow.com/questions/47615799/…