【问题标题】:Using fastText Sentence Vector as an Input Feature使用 fastText 句子向量作为输入特征
【发布时间】:2020-05-13 07:39:12
【问题描述】:

我想使用 fastText 句子向量作为输入特征。

vector = model.get_sentence_vector('Original Sentence')

我正在尝试使用 MLP 执行句子的二元分类,并将使用上述代码生成的固定大小的特征来训练算法。这是一个合理的做法吗?

【问题讨论】:

    标签: text-classification fasttext mlp


    【解决方案1】:

    您可以取词嵌入的平均值,即对句子进行标记,查找所有词的嵌入,计算平均值。通过这种方式,您将获得一个 NumPy 数组,您可以将其用作您想要的任何分类器的输入。根据分类任务,首先删除功能词可能很有用。

    Gensim 拥有比 FastText 本身更丰富的 Python API。如果你只是想快速训练一个分类器,最好的选择是使用FastText的命令行界面。

    【讨论】:

    • 但是我可以使用 get_sentence_vector 吗?我相信这也会返回句子中单词的平均值。
    • 是的,它做了平均加上一些额外的技巧 L2 规范。
    猜你喜欢
    • 1970-01-01
    • 2016-12-10
    • 1970-01-01
    • 1970-01-01
    • 2018-02-12
    • 1970-01-01
    • 2019-08-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多