【问题标题】:How to estimate uncertainties in class probabilities (or weights W) for SGDClassifier/Logistic regression?如何估计 SGDClassifier/Logistic 回归的类别概率(或权重 W)的不确定性?
【发布时间】:2016-10-17 00:04:27
【问题描述】:

我有一个二进制分类任务,我适合使用带有日志丢失的 SGDClassifier。对于预测,我对类概率(predict_proba)感兴趣,而不仅仅是类标签。

我需要对这些概率的不确定性进行估计,例如,对正类的不确定性,即:

                     p(x|positive_class) = p0 +/- delta

p0 以 predict_proba(x)[0] 的形式给出,但有没有办法估计 delta?

我能想到的另一种方法是通过权重 W 的不确定性并使用逻辑函数 p=1/[1+exp(-W.x)] 将不确定性从 W 传播到 p?

【问题讨论】:

    标签: machine-learning statistics scikit-learn logistic-regression


    【解决方案1】:

    首先

    p(x|positive_class) 
    

    生成样本x的概率,因此您需要生成模型。 LR是discriminative模型,SGD不是模型而是学习它的方式(但是sklearn中SGDClassifier实现的损失函数都是有判别性的)。

    你可能想知道

    p(positive_class|x) = A +/- eps
    

    不幸的是,答案是你不能。像这样的模型不提供置信区间。您可以做以下两件事之一:

    • 训练一个不同的模型,直接提供它,比如高斯过程
    • 使用您的分类器作为构建块构建元模型,例如,您可以训练一组 LR,每个 LR 在训练数据的子集(重新采样)上,并使用一组预测来估计置信区间(通过假设错误的正态分布并简单地报告模型 p_i) 上的 var(p_i(positive_class|x))

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-07-26
      • 2018-09-08
      • 1970-01-01
      • 2017-11-26
      • 2014-01-02
      • 2023-03-12
      • 2014-08-11
      • 2018-03-05
      相关资源
      最近更新 更多