【问题标题】:Sentence Classification on SNLI datasetSNLI 数据集上的句子分类
【发布时间】:2017-11-12 14:44:18
【问题描述】:

我正在为句子分类任务处理 SNLI 数据集here。该数据集包含两个句子,需要判断第二个句子是否包含矛盾或与第一个句子中性

出于分类目的,我实现了基于出现矩阵的 SVM 分类,其准确率约为 70%。

有人可以建议任何其他与 NLP 相关的分类策略,即使用二元组或三元组,因为我需要提出一些基线。

【问题讨论】:

    标签: python nlp stanford-nlp


    【解决方案1】:

    您应该考虑使用 k-means 聚类,这对于此类任务来说可能听起来有点不合常规,但将其用作以下内容,您可能会获得可靠的基线结果。

    1. 获取训练集中每个类别的平均词袋向量,在您的情况下,您最终会得到三个向量,并使用它来训练 k=3 的 k-means 模型。
    2. 然后,在确定每个类别对应哪个“标签”之后(例如,通过预测我们刚刚计算的三个平均向量中的每一个的类别并查看它们的每个标签),使用模型来预测您的测试集.

    (可选)您可能可以通过在训练数据上运行 PCA 来进一步提高模型的准确性。这实质上会降低您的特征的相关性,从而减少噪音。

    【讨论】:

      猜你喜欢
      • 2011-04-09
      • 2020-01-29
      • 2017-07-30
      • 2021-11-29
      • 1970-01-01
      • 2021-07-31
      • 2019-01-08
      • 2016-09-15
      • 2020-08-12
      相关资源
      最近更新 更多