【问题标题】:Performance Evaluation in Multilabel Classification多标签分类中的性能评估
【发布时间】:2013-12-20 05:59:36
【问题描述】:
为了评估多标签分类算法(每个实例与多个标签相关联),我同时查看了 Accuracy 和 F1-Measure。有:
Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)
哪种方法更好,为什么?在什么情况下我应该更喜欢其中一种?
【问题讨论】:
标签:
performance
machine-learning
classification
【解决方案1】:
通常,准确性更容易解释。但 F1 信息量更大。
这在很大程度上取决于您要解决的问题类型以及不同类别的相对重要性。
例如。在 MNIST 数字分类的情况下,您可能期望类是平衡的(每个类的示例数量相等),准确度指标非常能代表性能。
但在另一种情况下,例如癌症检测,您可能会发现
- 最好找到所有癌症病例,即使需要更多未患癌症的人进行测试(高召回率但对患者来说成本高)
- 类别中存在很多不平衡(例如 5% 的人患有癌症),因此您可以通过告诉没有人患有癌症来获得很高的准确度,但这根本没有帮助
在这种情况下,依靠 F1 分数并尝试平衡准确率和召回率比只看准确率更有意义。
所以这实际上取决于每个标签的相对重要性以及您想要优先考虑的内容。不看问题的实际领域,什么都说不出来。