我可以使用多类分类为新数据推荐前 5 类吗？答案

【问题标题】：Can I suggest top 5 classes for a new data using Multi-class Classification?我可以使用多类分类为新数据推荐前 5 类吗？
【发布时间】：2019-10-12 07:57:33
【问题描述】：

我有一个机器因某些机器组件故障而获得的票据数据集。票是文本形式的。

对于每个故障，我们有大约 8-10 个诊断标签。这说明了问题可能是什么，并被用来修复票证。

现在在训练数据中，我有一张票和 1 个诊断标签。所以这是一个多类训练数据。

在训练多类 ML 模型后，给定一个新的文本问题，我能否根据概率排名为该可能的票证建议前 5 个诊断？

我担心的是，这对于多标签数据是有意义的，因为训练数据也有多个标签，并且您可以将 sigmoid 激活放在最后，以获得针对该票证的每个诊断的正确概率。

但是，如果训练数据是多类的（意味着一张票只有一个对应的标签），我还可以建议多个诊断标签作为排名顺序吗？

谢谢

【问题讨论】：

标签： machine-learning nlp

【解决方案1】：

当然！这与从在 ILSVRC-2012（又名 ImageNet）上训练的 CNN 返回规范的 top-5 选择没有什么不同。您的模型将按照正确的可能性顺序提出诊断建议。

但是，请注意，这前五个标签可能无法反映您现实生活中的标签集合：它们是前五个个人的猜测，而您的经验票有一组相关标签。

如果在前 5 个评估中同时出现相关的潜在原因很重要，那么您需要在训练数据中包含多个标签。

例如，考虑您数据库中的一些票证：

Problem   Labels   Actual Cause (training label)
   1     A B C D       A
   2       B C         B
   3       B C   E     E
   4     A B C         C

现在，考虑一个具有与问题 1 和 4 相似特征的训练模型的输入。我想您的模型将返回原因 A 和 C 作为前两个。尽管C 与C 密切相关，如果B 没有出现在您的“前5”列表中，这是否重要？

如果您希望这些“原因集群”反映在前 5 个列表中，那么您需要在训练中包含多个标签。如果您的目的是仅建议故障单历史的经验结果，那么仅对实际诊断进行培训会更好。

【讨论】：

感谢您的回答。你能澄清你的最后一点吗？我担心的是，如果训练数据没有为每个工单分配多个标签，那么当我们实际为每个实例训练一个标签时建议多个标签是否正确？
谢谢修剪。只是为了确认......当你说“经验”时，你基本上只是指来自野外的猜测（在所有标签中），与 ML 或与该票证相关的任何事情无关？那正确吗？因此，如果我使用多类数据并且我建议前 5 个标签，除了顶部标签（由多类概率上的 ML 驱动）其余 4 个基本上是所有标签中的随机标签......对吗？
我想我主要关心的是如果你的数据没有多个标签对应任何一张票，那么建议多标签预测怎么可能是正确的？最重要的是机器学习从数据中学到的东西。但是其余的完全是随机的，因为原始训练数据没有任何实例，它也被映射到其他标签......那么模型就没有空间学习该实例或类似实例的其他标签......它只学一门课
"empirical" 指的是实际原因——票证带有 4 个潜在原因标签；你努力找到正确的诊断，训练标签将仅那个正确的原因，忽略其他 3.
您的拼写错误使您的 cmets 有点难以阅读 - 请在 Stack Overflow 上使用完整的单词（根据发布指南。