【发布时间】:2020-06-15 18:52:20
【问题描述】:
我有三个生物医学数据集(1 个二进制矩阵、1 个连续矩阵和 1 个离散矩阵)。现在,我想画一个数据(方差或中值或均值)分布图,包括三个在一个图中,然后基于三个数据集之间的 D'Agostino 检验计算偏度和 P 值。 具体而言,在每条分布曲线中,x轴表示基因的(方差或均值或中位数),而y轴表示样本间基因的频率或密度。
下图和我想要的结果差不多。
这里是可重现的数据集。
-df1:
df1 = structure(c(-0.056, -0.056, -0.056, -0.056, -0.056, -0.1388,
-0.1388, -0.1388, -0.1388, -0.1388, -0.0592, -0.0592, -0.0592,
-0.0592, -0.0592, -0.0646, -0.0646, -0.0646, -0.0646, -0.0646,
-0.1669, -0.1669, -0.1669, -0.1669, -0.1669), .Dim = c(5L, 5L
), .Dimnames = list(c("TCGA-4H-AAAK-01", "TCGA-5L-AAT0-01", "TCGA-5T-A9QA-01",
"TCGA-A1-A0SB-01", "TCGA-A1-A0SD-01"), c("TBC1D21", "FGF4", "KRTAP9-4",
"PSG11", "ADAM5")))
-df2:
df2 = structure(c(0L, 0L, 2L, 0L, 0L, 0L, 0L, 2L, 0L, 0L, 0L, 0L, 2L,
0L, 0L, 0L, 0L, 2L, 0L, 0L, 0L, 0L, 2L, 0L, 0L), .Dim = c(5L,
5L), .Dimnames = list(c("TCGA-4H-AAAK-01", "TCGA-5L-AAT0-01",
"TCGA-5T-A9QA-01", "TCGA-A1-A0SB-01", "TCGA-A1-A0SD-01"), c("GPR124",
"ERLIN2", "LOC728024", "PROSC", "KCNU1")))
-df 3:
df3 = structure(c(0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L,
0L, 0L, 0L, 1L, 0L, 0L, 0L, 1L, 1L, 0L, 0L, 0L), .Dim = c(5L,
5L), .Dimnames = list(c("TCGA-4H-AAAK-01", "TCGA-5L-AAT0-01",
"TCGA-5T-A9QA-01", "TCGA-A1-A0SB-01", "TCGA-A1-A0SD-01"), c("PIK3CA",
"TP53", "TTN", "MUC16", "CDH1")))
我一直在网上积极搜索,但没有什么对我的愿望有用。任何帮助将不胜感激。提前致谢。
我认为第一步是将我的三个数据集合并为一个:
MYdata = do.call("rbind", list(t(df1), t(df2),t(df3)))
然后,我将计算三个数据集的方差:
MYdata = var(MYdata)
最后,我必须使用 ggplot2 来绘制它们(我认为)但是对于像我这样的新 R 用户来说太复杂了。
【问题讨论】:
-
请展示你到目前为止所做的尝试。
-
我已经更新了,但我认为它很差,因为我的能力有限。
-
plot(density(...))
标签: r mean distribution median variance