【发布时间】:2022-01-23 12:41:56
【问题描述】:
我进行了一项大型调查(由 42 项针对不同治疗的子调查组成),但我无法确定我的数据。
我有大约 16 000 个答案,每个答案(即报纸的替代用途)都是数据框中的一个单元格。这些答案采用数据 1(如下)的形式。
根据一个答案给出的次数,它值 0-6 分(分越多,想的人越少,答案越有创意)。 此列表在形式上与数据 2(如下所列)相同。
现在我想根据数据 2 中的细分对 42 次调查(=参与者)的每一行求和。这个分数应该是数据框中称为“分数”的额外列。
简单示例:
参与者 1 个答案:“schuhe”、“basteln”、... => 分数 = 1 + 0 分 = 1
参与者 2 个答案:“brennmaterial”、“schiff”、... => 分数 = 1 + 1 分 = 2
所以代码应该这样做:
- 如果数据 1 的单元格 x 中的字符串(例如“schuhe”)与数据 2 中第 1 列中的字符串匹配(这里:“schuhe”)(总是如此,因为数据 2 是根据数据 1 创建的表),在“points”列的数据2中选择与该匹配字符串对应的值,将其保存在内存中或分配给变量。
- 转到行中的下一个单元格,执行步骤 1。
- 如果名称为“mycolumns”的所有列都在一行中完成,则将分数相加。
- 在数据 1 的“score”列中写入点的总和。
- 下一行重复。
数据 1: 42 个调查中的 1 个给出的答案 (sn-p):
structure(list(id = c("1", "2", "3", "4", "7"), kreazeitung_SQ001 = c("fensterglasersatz",
"dämmmaterial", "klopapier", NA, NA), kreazeitung_SQ002 = c("einwickeln",
"brennmaterial", "feueranzünder", "putzlappen", "schlagen"),
kreazeitung_SQ003 = c("mülleimer", "flieger", "brennmaterial",
"brennmaterial", "abdecken"), kreazeitung_SQ004 = c("schuhe",
"regenschirm", "basteln", "pappmaschee", "unterlage")), class = "data.frame", row.names = c(NA,
-5L))
数据 2:以下是每个答案的价值点,例如如果数据1中的答案是“小屋”,则该数据中的“分”列告诉我它值0分,如果是“schuhe”,则应计为1。
structure(list(Var1 = c("basteln", "einwickeln", "abdecken",
"falten", "schlagen", "feueranzünder", "hut", "unterlage", "collage",
"fliegenklatsche", "geschenkpapier", "pappmaschee", "zerreißen",
"brennmaterial", "schiff", "schuhe"), Freq = c(57L, 55L, 46L,
45L, 43L, 42L, 42L, 42L, 41L, 41L, 41L, 41L, 40L, 39L, 39L, 39L
), points = c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1)), row.names = c(9L,
30L, 1L, 42L, 151L, 47L, 81L, 192L, 20L, 53L, 67L, 126L, 211L,
16L, 150L, 156L), class = "data.frame")
我对所有解决方案都很满意,无论是 base 还是 tidyverse。 不幸的是,这种代码复杂性超出了我的想象,所以我会很高兴得到任何帮助! 谢谢!
【问题讨论】:
-
能否请您包括预期的输出。
标签: r dataframe tidyverse reshape tidyr