多项逻辑回归是否适合该数据集？答案

【问题标题】：Is Multinomial logistic regression appropriate for this dataset?多项逻辑回归是否适合该数据集？
【发布时间】：2017-11-13 14:52:29
【问题描述】：

我有如下所示的数据集。 500 和 900 之间的任何值都被归类为 A，而 900 和 ~1500 之间的值在 A 和 B 之间混合。我想找到在 x 的任何值处获得 A、B 和 C 的概率，其中 x 是我的自变量A,B,C 是我的因变量。它似乎非常适合多项逻辑回归。我相信每个因变量的观察次数就足够了。如果多项式对数回归是合适的，我希望使用 Python 的 scikit 学习逻辑回归模块来获得我在任意 x 值处的 A、B 和 C 的概率，但我不知道如何使用该模块来解决这个问题。

【问题讨论】：

看起来你有所谓的混合分布。 A、B 和 C 各有自己的分布，您观察到的是 p(A) p(x | A) + p(B) p(x | B) + p(C) p(x | C)。通常（不一定）应用所谓的期望最大化 (EM) 算法来找到混合权重 p(A)、p(B)、p(C) 和 p(x | A)、p(x) 的参数| B), p(x | C)。然而，这些是非常通用的 cmets，您应该做什么很大程度上取决于您的问题的细节。也许你应该把它带到 stats.stackexchange.com 讨论。

标签： python probability logistic-regression multinomial

【解决方案1】：

就个人而言，它看起来像是逻辑回归的一个很好的候选者，但它看起来是一维重叠的事实可能很难沿着这些部分分开。我主要是来回答你问题的第二部分，它可以推广到 scikit-learn 中的几乎任何其他分类器。

我建议查看 SGDClassifier 上的 scikit-learn 部分，因为它在属性列表正下方有一个简单示例，但将 SGDClassifier 部分替换为 LogisticRegression 类。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

这里还有 LogisticRegression 的文档：http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

【讨论】：