处理分类模型中的新特征答案

【问题标题】：Handling new features in classification models处理分类模型中的新特征
【发布时间】：2018-01-15 01:43:22
【问题描述】：

我正在迈出机器学习的第一步，特别是使用分类器进行文本情感分析。我的方法是制作通常的 80% 训练数据集和 20% 测试。拥有一个训练有素的模型，当新特征出现（文本中的新词不存在于初始数据集中）时，在生产环境中进行的最佳方式是什么？

【问题讨论】：

标签： machine-learning sentiment-analysis text-classification

【解决方案1】：

在分类任务中，必须在训练时看到所有特征，并且以后不能将新特征添加到预测阶段。对于您的问题，您可以使用 Stemming 或 Lemmatizing 。或者像 LDA 或 Word2Vec 这样的训练有大量文档的东西

本章可能有用：https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

【讨论】：

【解决方案2】：

您所描述的问题通常被称为出现在测试集中但不在训练集中的“词汇表外”(OOV) 词。传统的方法是用一个特殊的标记来表示每个 OOV 单词，例如“UNKNOWN”，并且实际上在训练数据中都有这些标记。这种方法在 Jurafsky 和 Martin 的“Speech and Language Processing”的Section 4.3 中有更全面的讨论。

更现代的方法是使用 Word2Vec。这是在神经网络中发现的真正的advanced topic。

【讨论】：