sangf

引言

通常我们在对多个变量进行统计分析的时候,结果的汇总和整理需要耗费大量的时间和精力,稍有不慎还有可能出现错误。因此在对多个变量统计分析的时候,使用自动化的脚本对结果进行整理和汇总就十分的方便了。
这里笔者使用Python当中的statsmodels模块,以方差分析为例进行演示和说明。

方差分析结果解析

import pandas as pd
df = pd.read_excel(r\'20200104_test.xlsx\', header=0, index_col=0)
df.head()

import statsmodels.formula.api as smf
import statsmodels.api as sm

formula = f\'A~C(Group)\'
model = smf.ols(formula=formula, data=df).fit()
table = sm.stats.anova_lm(model, typ=3)
table

f = table[\'F\'][\'C(Group)\']
p = table[\'PR(>F)\'][\'C(Group)\']
resDf = pd.DataFrame()
resDf = resDf.append({\'F\': f, \'P\': p, \'Formula\': formula}, ignore_index=True)
resDf.head()

可以看到,这里table是方差分析的结果数据,可以通过类似map键值索引的方式去读取不同的数据。

事后检验结果解析

方差分析后,只能对组效应是否显著进行判断,但具体是哪几个组之间存在显著差异还需要进一步通过事后检验来确定。这里使用TukeyHSD检验。

from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multicomp import MultiComparison

mc = MultiComparison(df[\'A\'], df[\'Group\'])
mc_results = mc.tukeyhsd()
print(mc_results)

meandiff = mc_results._results_table[1][2].data
meandiff


可以看到,这里采用一种类似二维矩阵的方式去访问结果数据。

参考

Analysis of Variance (ANOVA)
statsmodels

分类:

技术点:

相关文章:

  • 2022-01-01
  • 2021-08-09
  • 2022-01-05
  • 2021-06-10
  • 2021-11-20
  • 2021-12-05
猜你喜欢
  • 2021-05-29
  • 2021-08-14
相关资源
相似解决方案