【问题标题】:Is Multinomial logistic regression appropriate for this dataset?多项逻辑回归是否适合该数据集?
【发布时间】:2017-11-13 14:52:29
【问题描述】:

我有如下所示的数据集。 500 和 900 之间的任何值都被归类为 A,而 900 和 ~1500 之间的值在 A 和 B 之间混合。我想找到在 x 的任何值处获得 A、B 和 C 的概率,其中 x 是我的自变量A,B,C 是我的因变量。它似乎非常适合多项逻辑回归。我相信每个因变量的观察次数就足够了。如果多项式对数回归是合适的,我希望使用 Python 的 scikit 学习逻辑回归模块来获得我在任意 x 值处的 A、B 和 C 的概率,但我不知道如何使用该模块来解决这个问题。

【问题讨论】:

  • 看起来你有所谓的混合分布。 A、B 和 C 各有自己的分布,您观察到的是 p(A) p(x | A) + p(B) p(x | B) + p(C) p(x | C)。通常(不一定)应用所谓的期望最大化 (EM) 算法来找到混合权重 p(A)、p(B)、p(C) 和 p(x | A)、p(x) 的参数| B), p(x | C)。然而,这些是非常通用的 cmets,您应该做什么很大程度上取决于您的问题的细节。也许你应该把它带到 stats.stackexchange.com 讨论。

标签: python probability logistic-regression multinomial


【解决方案1】:

就个人而言,它看起来像是逻辑回归的一个很好的候选者,但它看起来是一维重叠的事实可能很难沿着这些部分分开。我主要是来回答你问题的第二部分,它可以推广到 scikit-learn 中的几乎任何其他分类器。

我建议查看 SGDClassifier 上的 scikit-learn 部分,因为它在属性列表正下方有一个简单示例,但将 SGDClassifier 部分替换为 LogisticRegression 类。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

这里还有 LogisticRegression 的文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

【讨论】:

    猜你喜欢
    • 2021-03-04
    • 1970-01-01
    • 2023-01-24
    • 2016-02-10
    • 2016-09-13
    • 2019-11-29
    • 1970-01-01
    • 1970-01-01
    • 2018-09-03
    相关资源
    最近更新 更多