【问题标题】:Handling new features in classification models处理分类模型中的新特征
【发布时间】:2018-01-15 01:43:22
【问题描述】:

我正在迈出机器学习的第一步,特别是使用分类器进行文本情感分析。我的方法是制作通常的 80% 训练数据集和 20% 测试。拥有一个训练有素的模型,当新特征出现(文本中的新词不存在于初始数据集中)时,在生产环境中进行的最佳方式是什么?

【问题讨论】:

    标签: machine-learning sentiment-analysis text-classification


    【解决方案1】:

    在分类任务中,必须在训练时看到所有特征,并且以后不能将新特征添加到预测阶段。对于您的问题,您可以使用 Stemming 或 Lemmatizing 。或者像 LDA 或 Word2Vec 这样的训练有大量文档的东西

    本章可能有用:https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

    【讨论】:

      【解决方案2】:

      您所描述的问题通常被称为出现在测试集中但不在训练集中的“词汇表外”(OOV) 词。传统的方法是用一个特殊的标记来表示每个 OOV 单词,例如“UNKNOWN”,并且实际上在训练数据中都有这些标记。这种方法在 Jurafsky 和 ​​Martin 的“Speech and Language Processing”的Section 4.3 中有更全面的讨论。

      更现代的方法是使用 Word2Vec。这是在神经网络中发现的真正的advanced topic

      【讨论】:

        猜你喜欢
        • 2017-11-09
        • 2021-12-01
        • 2014-02-17
        • 1970-01-01
        • 2021-06-07
        • 2018-04-03
        • 2015-11-25
        • 2018-03-27
        • 2019-01-03
        相关资源
        最近更新 更多