【问题标题】:Can I suggest top 5 classes for a new data using Multi-class Classification?我可以使用多类分类为新数据推荐前 5 类吗?
【发布时间】:2019-10-12 07:57:33
【问题描述】:

我有一个机器因某些机器组件故障而获得的票据数据集。票是文本形式的。

对于每个故障,我们有大约 8-10 个诊断标签。这说明了问题可能是什么,并被用来修复票证。

现在在训练数据中,我有一张票和 1 个诊断标签。所以这是一个多类训练数据。

在训练多类 ML 模型后,给定一个新的文本问题,我能否根据概率排名为该可能的票证建议前 5 个诊断?

我担心的是,这对于多标签数据是有意义的,因为训练数据也有多个标签,并且您可以将 sigmoid 激活放在最后,以获得针对该票证的每个诊断的正确概率。

但是,如果训练数据是多类的(意味着一张票只有一个对应的标签),我还可以建议多个诊断标签作为排名顺序吗?

谢谢

【问题讨论】:

    标签: machine-learning nlp


    【解决方案1】:

    当然!这与从在 ILSVRC-2012(又名 ImageNet)上训练的 CNN 返回规范的 top-5 选择没有什么不同。您的模型将按照正确的可能性顺序提出诊断建议。

    但是,请注意,这前五个标签可能无法反映您现实生活中的标签集合:它们是前五个个人的猜测,而您的经验票有一组相关标签。

    如果在前 5 个评估中同时出现相关的潜在原因很重要,那么您需要在训练数据中包含多个标签。

    例如,考虑您数据库中的一些票证:

    Problem   Labels   Actual Cause (training label)
       1     A B C D       A
       2       B C         B
       3       B C   E     E
       4     A B C         C
    

    现在,考虑一个具有与问题 1 和 4 相似特征的训练模型的输入。我想您的模型将返回原因 AC 作为前两个。尽管CC 密切相关,如果B 没有 出现在您的“前5”列表中,这是否重要?

    如果您希望这些“原因集群”反映在前 5 个列表中,那么您需要在训练中包含多个标签。如果您的目的是仅建议故障单历史的经验结果,那么仅对实际诊断进行培训会更好。

    【讨论】:

    • 感谢您的回答。你能澄清你的最后一点吗?我担心的是,如果训练数据没有为每个工单分配多个标签,那么当我们实际为每个实例训练一个标签时建议多个标签是否正确?
    • 谢谢修剪。只是为了确认......当你说“经验”时,你基本上只是指来自野外的猜测(在所有标签中),与 ML 或与该票证相关的任何事情无关?那正确吗?因此,如果我使用多类数据并且我建议前 5 个标签,除了顶部标签(由多类概率上的 ML 驱动)其余 4 个基本上是所有标签中的随机标签......对吗?
    • 我想我主要关心的是如果你的数据没有多个标签对应任何一张票,那么建议多标签预测怎么可能是正确的?最重要的是机器学习从数据中学到的东西。但是其余的完全是随机的,因为原始训练数据没有任何实例,它也被映射到其他标签......那么模型就没有空间学习该实例或类似实例的其他标签......它只学一门课
    • "empirical" 指的是实际 原因——票证带有 4 个潜在原因标签;你努力找到正确的诊断,训练标签将那个正确的原因,忽略其他 3.
    • 您的拼写错误使您的 cmets 有点难以阅读 - 请在 Stack Overflow 上使用完整的单词(根据发布指南。
    猜你喜欢
    • 2021-05-27
    • 2015-07-28
    • 2017-04-16
    • 2015-07-29
    • 2021-04-17
    • 1970-01-01
    • 2015-09-27
    • 1970-01-01
    • 2013-08-30
    相关资源
    最近更新 更多