【问题标题】:Is it fair to compare the output of a binary model with a multi-class model?将二元模型的输出与多类模型的输出进行比较是否公平?
【发布时间】:2018-08-19 05:12:33
【问题描述】:

假设我们试图模拟某人购买产品的倾向(例如汽车),而客户只能购买 6 种类型的汽车(例如 Car_a、Car_b、Car_c、Car_d、Car_e)。

从营销的角度来看,我想知道哪个客户有更高的乘车可能性(二元分类),我可能还想知道该客户最有可能坐哪辆车(多级分类)。

  • 我创建了一个二元分类模型来预测某人开车的倾向。 例如 Customer_A -> 0.25,我们称之为 Pr_binary(Customer_A)

  • 我还创建了一个包含 Car_a、Car_b、Car_c、Car_d、Car_e 类的多类模型,它告诉客户使用这些汽车的可能性。

现在,我的问题是,概率 Pr_binary 是否可比或等于多重的 [Pr(Car_a) + Pr(Car_b) + Pr(Car_c) + Pr(Car_d) + Pr(Car_e)] 的总和?类模型?

【问题讨论】:

    标签: machine-learning scikit-learn statistics classification modeling


    【解决方案1】:

    不,您使用的表达式不等价。

    假设(在您的示例中)只有 5 种汽车,那么组合概率的正确方法是:

    P(buying) = 1 - P(not buying)

    地点:

    P(not buying) = (1 - Pr(Car_a)) * (1 - Pr(Car_b)) * (1 - Pr(Car_c)) * (1 - Pr(Car_d)) * (1 - Pr(Car_d))

    这应该有助于您评估特定客户在两种情况下的概率是否相似。

    但是请注意,这假设您的多类方法的输出是概率,并且(如果您使用的是 One VS All 分类器)所有单个概率都经过校准。

    【讨论】:

      猜你喜欢
      • 2020-03-12
      • 2019-08-07
      • 2023-03-05
      • 2017-06-02
      • 2023-03-29
      • 2020-12-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多