【发布时间】:2022-01-06 15:46:33
【问题描述】:
虚拟年份(1995 年是省略的年份):
Call:
plm(formula = mrateunder5 ~ GDPPPP + factor(Year), data = FinalData,
model = "within", index = "Country")
Unbalanced Panel: n = 47, T = 1-3, N = 69
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-11.4818 -1.9533 0.0000 1.9816 11.4818
Coefficients:
Estimate Std. Error t-value Pr(>|t|)
GDPPPP 0.0134389 0.0044836 2.9974 0.00773 **
factor(Year)2000 -15.4565645 6.2679791 -2.4660 0.02394 *
factor(Year)2005 -39.5441044 6.6982650 -5.9036 1.374e-05 ***
factor(Year)2010 -59.1835897 9.9644448 -5.9395 1.276e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Total Sum of Squares: 6722.6
Residual Sum of Squares: 1237.5
R-Squared: 0.81592
Adj. R-Squared: 0.30457
F-statistic: 19.9453 on 4 and 18 DF, p-value: 2.0253e-06
当我将年份和国家作为虚拟变量时,我的 GDP 系数值相同。
作为固定效应的年份:
Call:
plm(formula = mrateunder5 ~ GDPPPP, data = FinalData, model = "within",
index = c("Year", "Country"))
Unbalanced Panel: n = 4, T = 4-28, N = 69
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-59.296 -24.494 -6.722 19.180 107.636
Coefficients:
Estimate Std. Error t-value Pr(>|t|)
GDPPPP -0.0251533 0.0030549 -8.2338 1.249e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Total Sum of Squares: 183330
Residual Sum of Squares: 89024
R-Squared: 0.5144
Adj. R-Squared: 0.48405
F-statistic: 67.7951 on 1 and 64 DF, p-value: 1.2488e-1
如您所见,“GDPPPP”的系数估计值不同。第二个模型的结果是我更喜欢的结果(负系数,因为较高的 GDP 水平会导致较低的死亡率)。
为什么这些不同 - 它们应该匹配吗?
我认为这可能是因为我的数据不完整(某些国家/地区的数据丢失了一些年份 - 例如,对于阿富汗,我缺少前两个时间段(1995 年和 2000 年),但我有 2005 年的阿富汗数据和2010)。
我的模型之一是否丢弃了不完整的数据?哪一个?有没有办法让模型匹配?
【问题讨论】:
-
也就是说,如果您可以共享数据样本(例如,使用
dput())以供他人复制和粘贴以获得相同的结果,这将非常有帮助。 -
模型是否“应该”匹配,如果一个模型是对另一个模型进行系数转换等的重新参数化,对我来说似乎是统计问题,而不是程序问题。我认为您会在 Cross Validated 获得更好的答案和更快的答案。
-
你不应该更喜欢一个模型,因为它的结果符合你的先入为主。在这种情况下,与第一个模型相比,第二个模型糟糕:只需查看残差分布即可。