【发布时间】:2011-10-20 20:29:58
【问题描述】:
之前我向question 询问了关于从数据框中提取重复行的问题。我现在需要运行一个脚本来决定将哪些重复项保留在我的最终数据集中。
此数据集中的重复条目具有相同的“Assay”和“Sample”值。这是我正在使用的新数据集的前 10 行,其中包含我的重复条目:
Assay Sample Genotype Data
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
我想运行一个脚本,根据“数据”的值(可以是 1、0 或 NA)将这些重复样本分成 4 个箱:
1) All values for 'Data' are NA
2) All values for 'Data' are identical, no NA
3) At least 1 value for 'Data' is not identical, no NA.
4) At least 1 value for 'Data' is not identical, at least one is NA.
上述数据的预期结果是这样的;
Set 1
Null
Set 2
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
Set 3
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
Set 4
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
在某些情况下,此数据集中存在超过 2 个“重复”数据点。作为 R 的新手,我什至不知道从哪里开始。
编辑:使用预期数据。
【问题讨论】:
-
鉴于这些数据,您的预期结果是什么?另外,到目前为止,您尝试过什么?你在哪里卡住了?
-
@Andrie Ive 添加了示例中的预期数据。我honesrlt不知道从哪里开始。我已经用 R 工作了几个星期了。
标签: r duplicates dataframe binning