使用 fastText 句子向量作为输入特征

【问题标题】：Using fastText Sentence Vector as an Input Feature使用 fastText 句子向量作为输入特征
【发布时间】：2020-05-13 07:39:12
【问题描述】：

我想使用 fastText 句子向量作为输入特征。

vector = model.get_sentence_vector('Original Sentence')

我正在尝试使用 MLP 执行句子的二元分类，并将使用上述代码生成的固定大小的特征来训练算法。这是一个合理的做法吗？

【问题讨论】：

【解决方案1】：

您可以取词嵌入的平均值，即对句子进行标记，查找所有词的嵌入，计算平均值。通过这种方式，您将获得一个 NumPy 数组，您可以将其用作您想要的任何分类器的输入。根据分类任务，首先删除功能词可能很有用。

Gensim 拥有比 FastText 本身更丰富的 Python API。如果你只是想快速训练一个分类器，最好的选择是使用FastText的命令行界面。

【讨论】：