【发布时间】:2013-10-19 19:57:43
【问题描述】:
假设我想查看一个年龄在 55 到 100 岁之间的子集,以查看他们的医疗保健费用。
我用过:
Elders <- subset(midus, Age>= 55 | Age<100)
mean(Elders$Cost, na.rm=TRUE)
#78.8445
我知道这应该给我 55 到 100 人的平均成本。在这种情况下,它是 78.8445
听起来不错。但是,为了检查,我将其与 95-100 岁的人进行比较:
Elders2<-subset(midus,Age>=95 | Age<100)
mean(Elders2$Cost, na.rm=TRUE)
#78.8445
在我看来,这两个子集不太可能具有相同的含义。而且我无法弄清楚我做错了什么让它认为他们这样做。有人有什么想法吗?
感谢您的帮助。自从开始这门课以来,我一直潜伏着堆栈溢出,这对我帮助很大。
【问题讨论】:
-
这似乎不是
subset的问题,而是更多的问题,因为计算机完全为您提供了您所要求的而不是您想要的。 -
@DWin 在这种情况下我认为它更简单。 x > a | x not 是定义 x、a 和 b 的数字集的子集。不管 a 是 50 还是 95,他都取了整个样本的平均值。这更像是一个数学问题而不是编码。