【发布时间】:2020-10-28 23:12:32
【问题描述】:
对于 x 的每个值(本例中为 educ),我想绘制 y(收入)的分布并添加 y ~ x 的回归线。
df <- structure(list(
income = c(16L, 18L, 26L, 16L, 34L, 22L, 42L,
42L, 16L, 20L, 66L, 26L, 20L, 30L, 20L, 30L, 32L, 16L, 20L, 58L,
30L, 26L, 20L, 40L, 32L, 22L, 20L, 56L, 32L, 30L, 30L, 48L, 40L,
84L, 50L, 38L, 30L, 76L, 48L, 36L, 40L, 44L, 30L, 60L, 24L, 88L,
46L, 50L, 50L, 22L, 26L, 46L, 22L, 24L, 64L, 62L, 24L, 50L, 32L,
34L, 52L, 24L, 22L, 20L, 30L, 24L, 120L, 22L, 82L, 18L, 26L,
104L, 28L, 32L, 38L, 44L, 22L, 18L, 24L, 56L),
educ = c(10L, 7L, 9L, 11L, 14L, 12L, 16L, 16L, 9L, 10L, 16L, 12L, 10L, 15L,
10L, 19L, 16L, 11L, 10L, 16L, 12L, 10L, 8L, 12L, 10L, 11L, 10L,
14L, 12L, 11L, 14L, 14L, 7L, 18L, 10L, 12L, 12L, 16L, 16L, 11L,
11L, 12L, 10L, 15L, 9L, 17L, 16L, 16L, 14L, 11L, 12L, 16L, 9L,
9L, 14L, 16L, 10L, 13L, 10L, 16L, 18L, 12L, 14L, 13L, 14L, 13L,
18L, 10L, 16L, 12L, 12L, 14L, 12L, 12L, 14L, 12L, 12L, 10L, 12L,
20L),
race = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c("b", "h", "w"), class = "factor"),
race2 = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), z1 = c(1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
),
z2 = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L)), row.names = c(NA, -80L), class = c("tbl_df",
"tbl", "data.frame"))
到目前为止,我已经使用ggridges 包来绘制 y 在每个 x 值处的分布。尽管如此,
通过这样做,我实际上必须更改每个变量的坐标(x 变为 y,反之亦然)。
为了“还原”这个,我翻转了坐标,结果我得到了这个:
ggplot(df, aes(x = income, y = educ, group = educ)) +
geom_density_ridges(jittered_points = TRUE,
position = position_points_jitter(height = 0),
point_size = 1.5,
point_shape = 1,
alpha = 0.3) +
coord_flip()
问题是,如果我在图中添加一条回归线,我会为每个值得到一条回归线
educyr(因为我必须将它们分组以申请geom_density_ridges())。此外,回归线实际上是 x ~ y 而不是 y ~ x。
为了解决这个问题,我发现 x ~ y 的回归线等同于 y ~ x,因此回归线看起来与我应用 geom_smooth() 时完全相同,但 educyr 为 x,hrinc 为 y .
fit <- lm(df$income ~ df$educ)
slope <- 1/fit$coefficients[[2]]
intercept <- fit$coefficients[[1]]/fit$coefficients[[2]] * -1
ggplot(df, aes(x = income, y = educ, group = educ)) +
geom_density_ridges(jittered_points = TRUE,
position = position_points_jitter(height = 0),
point_size = 1.5,
point_shape = 1,
alpha = 0.3) +
stat_function(fun=function(x) intercept + slope*x, color = "red") +
scale_y_continuous(breaks=seq(0, 20, 5), limits=c(8, 20)) +
coord_flip()
这与我使用时得到的相同:
ggplot(df, aes(x = educ, y = income)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
我想知道是否有更好的方法来做到这一点。具体来说,如果有一种方法可以使用ggplot2 但不使用ggridges 绘制每个x 值的y 分布,那么我不需要反转坐标。
【问题讨论】:
-
你在
geom_smooth()里面试过formula吗? -
在第二个图中,我使用
geom_smooth添加回归线,此时的公式为 y ~ x,如果我指定 x ~ y,则不显示任何线。