【问题标题】:Multi Classify into categories based on Email Subject and Body in python基于python中的电子邮件主题和正文多分类
【发布时间】:2018-08-02 05:34:18
【问题描述】:

我的数据集如下。

主题栏是指电子邮件主题和问题描述,问题详细信息栏是指电子邮件正文。

基于主题和电子邮件正文关键字,我需要分类它应该属于哪个队列。

之前的队列列包含 25 多个不同的类别。

我的数据框形状是 (60697, 4)。

请就我需要遵循的分类方法提出建议。我需要使用哪些 ML 模型来训练数据和测试数据。

我对使用自然语言标记化概念有所了解。

分类更像 gmail 收件箱分类:主要、社交和促销。但是,这里我必须归类为 25+。

【问题讨论】:

  • 我们可以将Previous Queue 视为训练数据集的已知且正确的标签/类吗?
  • 是的。需要将先前的队列视为基于电子邮件正文和主题的测试数据的输出

标签: python-3.x machine-learning nlp multiclass-classification


【解决方案1】:

我会尝试以下方法:

  1. 使用 CountVectorizer 或 TfidfVectorizer 对您的主题和电子邮件正文进行矢量化处理,这样您就拥有了 X 矩阵。您可能需要测试不同的ngram_range,以提高预测性能
  2. 分解您的类,因此每个类都应该有一个整数 - 这将是您的 y 向量
  3. X 拆分为X_trainX_testy 拆分为y_trainy_test
  4. 使用X_testy_test 训练一个LogisticRegression 模型
  5. X_testy_test 上测试它 ...

【讨论】:

  • 感谢 Max 的投入!让我尝试您所说的方法,并希望它能按我的意愿工作。非常感谢! :)
  • 这是最近的一篇关于多类分类的博客文章,类似于@MaxU 提出的towardsdatascience.com/…
【解决方案2】:

你可以试试 FastText。这是tutorial的链接。

Fasttext 在监督分类的上下文中使用word embeddings 的概念。使用 fasttext 的主要优势是,正如它的名字所说,它非常快。它可以轻松处理 1000 多个类别/标签。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-09-09
    • 1970-01-01
    • 2015-02-06
    • 2021-12-06
    • 1970-01-01
    • 1970-01-01
    • 2022-11-28
    • 1970-01-01
    相关资源
    最近更新 更多