【发布时间】:2015-06-12 07:02:41
【问题描述】:
我想在分类变量的每个级别上执行chisq.test()。
目前,我已经设法使用以下代码对每个分类变量执行此操作。
# Random generation of values for categorical data
set.seed(12)
x <- data.frame(col1 = sample( LETTERS[1:4], 100, replace=TRUE ),
col2 = sample( LETTERS[3:6], 100, replace=TRUE ),
col3 = sample( LETTERS[2:5], 100, replace=TRUE ),
out = sample(c(1,2),100, replace=TRUE))
# performing chisq.test
pval <- as.data.frame(sapply(c(1:3),function(i)chisq.test(x[,i],x[,'out'])$p.value ))
#output
p.value
1 0.33019256
2 0.08523487
3 0.79403367
我有兴趣比较不同结果的水平。
# for col1 levels different outcomes
table(x$col1,x$out)
#output
1 2
A 8 12
B 18 10
C 12 11
D 18 11
例如,比较col1 中的 B 级,以获得 out 中的不同结果 1,2。
我想知道如何将其扩展到(或以另一种智能方式)到分类变量的每个级别?
# Expected output
p.value
col1.A *****
col1.B *****
col1.C *****
.
.
.
col3.E *****
感谢您的关注。
【问题讨论】:
-
什么意思?你打算如何只在一个因素的一个层面上做一个
chisq.test? -
@thelatemail 我想比较每个级别的不同结果。我试着举个例子,这有意义吗?
-
@NickK 在我的一位同事向我提出this paper 的问题后,我什至想知道如何解决这个问题。在表 1 中,他们比较了不同教育程度的疾病。如果我的理解与此处提出的问题不相关,请纠正我。
-
对于他们评估的每个类别,他们构建了一个 2x2 列联表,例如高等教育与没有高等教育的行和先兆子痫与没有先兆子痫的列。这与您在问题中提出的不同。您的类别是互斥的(对于第 1 列,您不能是 A+B),而他们的类别是重叠的(您可以在他们的数据集中接受高等教育和至少 12 年的教育,尽管这对我来说似乎很不寻常)。
-
@NickK 感谢您的解释,我现在明白该示例与我的问题无关。与吸烟状态分类变量不同,重叠的教育参数对我来说是模棱两可的。
标签: r statistics sapply chi-squared