【发布时间】:2011-12-11 05:22:56
【问题描述】:
我还有一个关于从我正在使用的大型数据框中进行数据挖掘的问题,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 NA
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
我总共将处理 2000 个样本和每个样本的 168 个检测。
我想根据这些数据生成一个汇总表,告诉我每个“结果”有多少“样本”。 “结果”只有 3 个选项 1、0 或 NA。我希望结果有一个看起来像这样的数据框(使用上面的数据):
Assay 1 0 NA
001 1 2 1
002 1 3 0
003 2 1 1
正如我上面提到的,有 168 种不同的 Assay,它们不是简单地标记在数字系列中,因此必须从原始数据框中提取 Assay ID。 在理想的世界中,我还希望在数字旁边(或在不同的表格中)列出每个“结果”的样本百分比。
【问题讨论】:
标签: r data-mining dataframe