【发布时间】:2021-11-11 11:08:41
【问题描述】:
我有一个大型数据库要面对这种结构 我真实数据库的str是这样的 小标题 [561 x 128] (S3: tbl_df/tbl/data.frame)
让我们在这个数据框中总结一下我需要做什么
paciente <- c(6430, 6494, 6165, 6278, 6188, 6447, 6207, 6463)
sexo_s1 <- c("Hombre", "Mujer", "Mujer", "Mujer", "Hombre", "Hombre", "Mujer")
edad_s1 <- c(54, 68, 75, 85, 78, 80, 78, 90)
peso1_v00 <- c(115.2, 85, 98, 87, 85, 78, 84, 98)
cintura1_v00 <- c(115, 125, 110, 114, 120, 121 125, 110)
coltot_v00 <- c(215, 220, 210, 225, 215, 220, 230, 220)
peso1_v66 <- c(110.2, 80, 95, 87, 83, 78, 84, 98)
cintura1_v01 <- c(112, 125, 110, 110, 112, 121 120, 110)
coltot_v01 <- c(210, 210, 205, 215, 215, 210, 230,1 220)
peso1_v01 <- c(110.2, 80, 95, 87, 83, 78, 84, 98)
cintura1_v01 <- c(112, 125, 110, 110, 112, 121 120, 110)
coltot_v01 <- c(210, 210, 205, 215, 215, 210, 230,1 220)
我需要执行几个统计分析:
对数值变量(128 个变量中的 125 个)运行正态性检验(shapiro.test 和箱线图)。我正在尝试使用 purrr::map 和类似的 (purrr:map_dfr)
iterative_example<-map_dfr(.x = quos(paciente, sexo_s1, edad_s1, peso1_v00, cintura1_v00, coltot_v00, peso1_v66, cintura1_v66, coltot_v66, peso1_v01, cintura1_v01, coltot_v01), .f = ~ shapiro.test, data = df_example)
错误/rlang_error> 参数 1 必须是数据框或命名的原子向量。 回溯:
咕噜声::map_dfr(...) dplyr::bind_rows(res, .id = .id)t。 如果我将 map_dfr 与 map 交换,我将获得一个无法导出或转换为 data.frame 的列表
iterative_example<-map(.x = quos(paciente, sexo_s1, edad_s1, peso1_v00, cintura1_v00, coltot_v00, peso1_v66, cintura1_v66, coltot_v66, peso1_v01, cintura1_v01, coltot_v01), .f = ~ shapiro.test, data = df_example)
9 人名单:
函数(x)
函数(x)
函数(x)
我暂时无法导出或取消嵌套列表以获得p值和t结果,但我会整理一下。但是我想获得一个 data.frame。
与此操作类似,我必须在不同时间观察到的变量之间运行迭代 t.test,如果所采取的测量值之间存在显着差异(我尝试了相同的 map 函数,但我得到了与夏皮罗测试 例如
t.test(df_example$peso1_v00, df_example$peso1_v66)
t.test(df_example$cintura1_v00, df_example$cintura1_v66)
识别变量名的语法: “i_variable1_v00”在特定时间“v00”并使用“i_variable1_v66”进行测试。我试过了:starts_with() 但没有结果
我不确定如何执行此操作并导出输出
韦尔奇二样本 t 检验
数据:df_example$cintura1_v00 和 df_example$cintura1_v66 t = -0.051503,df = 10.399,p 值 = 0.9599 备择假设:均值的真实差异不等于 0 95% 置信区间: -5.504848 5.254848 样本估计: x 的平均值 y 的平均值 117.500 117.625
2 - 从 0、6 和 12 个月的值迭代创建新列。我已经创建了变量,但使用数据库中的变量系统地重复行。我的数据库中有一个不同变量的示例。
我正在寻找在不同时间点获取的变量之间迭代地在新列中创建变量的方法:
d_peso1_v66:差异 0-+6 个月 d_peso1_v01:差异 0 - 12 个月
没有迭代的 2 个变量的示例:
df_example<-mutate(df_example, d_peso1_v66 = peso1_v66 - peso1_v00)
df_example<-mutate(df_example, d_coltot_v01 = coltot_v01 - coltot_v00)
d_variable1_v66 = i_variable1_v66 - i_variable1_v00 d_variable1_v01 = i_variable1_v01 - i_variable1_v00
d_variable2_v01 = i_variable2_v66 - i_variable2_v00 d_variable2_v01 = i_variable2_v01 - i_variable2_v00
df_example <-mutate(across(where(is.numeric)),
varname <- paste("varname01", if variable contains "01" )
df_example <- mutate(df, varname = Petal.Width * n)
不确定是否可以一步执行,或者需要创建一个函数并使用 map 函数通过数据库。像这样但有所作为(difference_function)
meanofcol <- function(df, col) {
mutate(df, "Mean of {{col}}" := mean({{col}}))
}
meanofcol(iris, Petal.Width)`
然后用地图功能
df_example2 <- map_dfr (.x = df_example, .f = ~ difference_function, data = df_example)
我一直在努力使用不同的方法,如果我知道如何编写语法,这些方法所花费的时间比我认为应该花费的时间要多得多
【问题讨论】: