将二元模型的输出与多类模型的输出进行比较是否公平？答案

【问题标题】：Is it fair to compare the output of a binary model with a multi-class model?将二元模型的输出与多类模型的输出进行比较是否公平？
【发布时间】：2018-08-19 05:12:33
【问题描述】：

假设我们试图模拟某人购买产品的倾向（例如汽车），而客户只能购买 6 种类型的汽车（例如 Car_a、Car_b、Car_c、Car_d、Car_e）。

从营销的角度来看，我想知道哪个客户有更高的乘车可能性（二元分类），我可能还想知道该客户最有可能坐哪辆车（多级分类）。

我创建了一个二元分类模型来预测某人开车的倾向。例如 Customer_A -> 0.25，我们称之为 Pr_binary(Customer_A)
我还创建了一个包含 Car_a、Car_b、Car_c、Car_d、Car_e 类的多类模型，它告诉客户使用这些汽车的可能性。

现在，我的问题是，概率 Pr_binary 是否可比或等于多重的 [Pr(Car_a) + Pr(Car_b) + Pr(Car_c) + Pr(Car_d) + Pr(Car_e)] 的总和？类模型？

【问题讨论】：

标签： machine-learning scikit-learn statistics classification modeling

【解决方案1】：

不，您使用的表达式不等价。

假设（在您的示例中）只有 5 种汽车，那么组合概率的正确方法是：

P(buying) = 1 - P(not buying)

地点：

P(not buying) = (1 - Pr(Car_a)) * (1 - Pr(Car_b)) * (1 - Pr(Car_c)) * (1 - Pr(Car_d)) * (1 - Pr(Car_d))

这应该有助于您评估特定客户在两种情况下的概率是否相似。

但是请注意，这假设您的多类方法的输出是概率，并且（如果您使用的是 One VS All 分类器）所有单个概率都经过校准。

【讨论】：