文本分类到预定义的类别答案

【问题标题】：Text classification into predefined categories文本分类到预定义的类别
【发布时间】：2020-05-12 07:28:00
【问题描述】：

我正在尝试将文本数据分类为几类。但在数据集中，可能存在不属于任何已定义类别的数据。

并且在部署最终产品之后，该产品应该处理不属于预定义类别的文本数据。

为了实现该解决方案，我目前正在使用 SVM 文本分类器。我打算将另一个类别定义为

“非”

处理不属于预定义类别的数据。

这是正确的方法吗？

【问题讨论】：

【解决方案1】：

是的，那会奏效。它本质上是一个称为“非”的附加类，分类器将学习将所有文档分类为该类，并标记为该类。

因此，当您使用最终产品时，它会尝试将新的文本数据分类到类别中，包括“非”。

【讨论】：