【发布时间】:2019-06-16 04:35:49
【问题描述】:
有没有办法使用 R 运行线性回归,其中包含连续变量和分类变量之间的交互项,但不包括连续变量本身?
我正在研究住房租金和居住面积之间的关系。我的数据集中有四个不同的区域,我假设它们之间的关系是不同的。我在region 上使用rent 的线性回归以及floorspace 和region 之间的交互,我想在region 和交互项上使用系数,但使用lm 和交互项力@987654327 @ 也显示为自变量。
事情是这样的:
lm(formula = rent ~ factor(region) + factor(region) * floorspace,
data = mydataset)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.67252 0.06792 68.792 < 2e-16 ***
factor(region)2 -0.39859 0.09453 -4.216 2.52e-05 ***
factor(region)3 -0.23631 0.17870 -1.322 0.186078
factor(region)4 -0.49076 0.10329 -4.751 2.07e-06 ***
floorspace -0.38658 0.01539 -25.119 < 2e-16 ***
factor(region)2:floorspace 0.20481 0.02145 9.550 < 2e-16 ***
factor(region)3:floorspace -0.00884 0.03987 -0.222 0.824552
factor(region)4:floorspace 0.08022 0.02348 3.416 0.000638 ***
我想要的是这个:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.67252 0.06792 68.792 < 2e-16 ***
factor(region)2 -0.39859 0.09453 -4.216 2.52e-05 ***
factor(region)3 -0.23631 0.17870 -1.322 0.186078
factor(region)4 -0.49076 0.10329 -4.751 2.07e-06 ***
factor(region)1:floorspace -0.38658 0.01539 -25.119 < 2e-16 ***
factor(region)2:floorspace -0.18177 ??????? ????? ???????
factor(region)3:floorspace -0.39543 ??????? ????? ???????
factor(region)4:floorspace -0.30636 ??????? ????? ???????
原因是,从解释的角度来看,单独显示每个区域的 floorspace 效果更有意义,而不是显示 region=1 和 floorspace 的效果,其余部分作为效果之间的差异给定区域和region=1
【问题讨论】:
-
使用:
mydataset = data.frame(region=sample(1:4, 100,TRUE), floorspace=runif(100))制作测试数据集
标签: r linear-regression categorical-data interaction