【发布时间】:2018-08-02 05:34:18
【问题描述】:
我的数据集如下。
主题栏是指电子邮件主题和问题描述,问题详细信息栏是指电子邮件正文。
基于主题和电子邮件正文关键字,我需要分类它应该属于哪个队列。
之前的队列列包含 25 多个不同的类别。
我的数据框形状是 (60697, 4)。
请就我需要遵循的分类方法提出建议。我需要使用哪些 ML 模型来训练数据和测试数据。
我对使用自然语言标记化概念有所了解。
分类更像 gmail 收件箱分类:主要、社交和促销。但是,这里我必须归类为 25+。
【问题讨论】:
-
我们可以将
Previous Queue视为训练数据集的已知且正确的标签/类吗? -
是的。需要将先前的队列视为基于电子邮件正文和主题的测试数据的输出
标签: python-3.x machine-learning nlp multiclass-classification