SPSS和statsmodels中逻辑回归的不同p值答案

【问题标题】：Different p-value of logistic regression in SPSS and statsmodelsSPSS和statsmodels中逻辑回归的不同p值
【发布时间】：2020-01-11 22:07:47
【问题描述】：

我尝试在 Python 中使用 statsmodel 进行单变量分析（二元逻辑回归，每次一个特征），以计算不同特征的 p 值。

for f_col in f_cols:
    model = sm.Logit(y,df[f_col].astype(float))
    result = model.fit()
    features.append(str(result.pvalues).split('   ')[0])
    pvals.append(str(result.pvalues).split('   ')[1].split('\n')[0])

df_pvals = pd.DataFrame(list(zip(features, pvals)), 
           columns =['features', 'pvals']) 
df_pvals

但是，SPSS 中的结果不同。 sm.Logit 方法中NYHA 的 p 值为 0。而且所有的 p 值都不同。

在statsmodel中使用sm.Logit做二元逻辑回归是否正确？
为什么结果之间存在差异？大概sm.Logit 使用L1 正则化？
我应该如何获得相同的？

非常感谢！

【问题讨论】：

你可能想看看这个答案stackoverflow.com/questions/27928275/…
add_constant，您错过了 statsmodels 在不使用公式时不会自动添加的常量。

标签： python statistics statsmodels spss

【解决方案1】：

SPSS 回归建模程序会自动包含常数项或截距项，除非他们被告知不要这样做。正如 Josef 所提到的，statsmodels 似乎要求您显式添加截距。

【讨论】：