【发布时间】:2021-04-06 09:23:56
【问题描述】:
我有来自如下实验的面板数据:
| account | usage | yearmonth | pre/post | group |
|---|---|---|---|---|
| 1 | 121 | oct 2019 | pre | control |
| 1 | 124 | Nov 2019 | post | control |
| 2 | 120 | oct 2019 | pre | treatment |
| 2 | 118 | nov 2019 | post | treatment |
在我的数据中,我有大约 50 个月和更多的帐户。
我正在使用 statsmodel 公式/patsy 运行 ols 来评估结果。
这不是我正在使用的确切模型规范,但为了这个问题:
smf.ols("usage ~ C(group, Treatment('control'))* C(pre/post, Treatment(pre)) + yearmonth), df).fit()
我的问题是,当我在公式中包含“yearmonth”变量时,statsmodel 是否将其视为虚拟变量,还是需要先对其使用 pd.get_dummies 然后再使用此模型:
smf.ols("usage ~ C(group, Treatment('control'))* C(pre/post, Treatment(pre)) + oct 2019 + nov 2019), df).fit()
如果我使用后者,我的公式将会非常长。那我需要这样做吗?
谢谢!
【问题讨论】:
标签: python linear-regression statsmodels dummy-variable panel-data