【发布时间】:2017-01-10 08:00:07
【问题描述】:
我有基因数据。它相当大,大约有 17 000 个遗传标记 (SNP) 和 700 个个体。这些 SNP 可以分配给创始人。 现在我想计算每个“创始人段”的平均概率。一个片段被定义为分配给一个创始人不间断的染色体的一部分。
在下面的示例中,我将有 3 个段。
最后,我想知道一个片段内所有 SNP 的平均概率。
Chromosome SNP Founder Probability
1 1 7 0.6
1 2 7 0.5
1 3 7 0.7
1 4 2 0.5
1 5 2 0.8
1 6 7 0.6
1 7 7 0.5
我可以轻松地与dplyr 分组,但我不希望创始人 7 的第一段与创始人 7 的另一段一起。
所以我想要什么:
Chromosome SNP Founder Probability Average
1 1 7 0.6 0.6
1 2 7 0.5 0.6
1 3 7 0.7 0.6
1 4 2 0.5 0.65
1 5 2 0.8 0.65
1 6 7 0.6 0.55
1 7 7 0.5 0.55
当多次使用相同的分组因子时,如何计算组均值?
【问题讨论】: