【问题标题】:Summary of data from a data frame数据框中的数据摘要
【发布时间】:2011-12-11 05:22:56
【问题描述】:

我还有一个关于从我正在使用的大型数据框中进行数据挖掘的问题,前几行如下:

      Assay   Genotype   Sample    Result
1     001        G         1         0
2     001        A         2         1
3     001        G         3         0 
4     001        NA        4         NA
5     002        T         1         0
6     002        G         2         1
7     002        T         3         0 
8     002        T         4         0
9     003        NA        1         NA
10    003        G         2         1
11    003        G         3         1 
12    003        T         4         0

我总共将处理 2000 个样本和每个样本的 168 个检测。

我想根据这些数据生成一个汇总表,告诉我每个“结果”有多少“样本”。 “结果”只有 3 个选项 1、0 或 NA。我希望结果有一个看起来像这样的数据框(使用上面的数据):

Assay    1   0   NA
001      1   2   1 
002      1   3   0
003      2   1   1

正如我上面提到的,有 168 种不同的 Assay,它们不是简单地标记在数字系列中,因此必须从原始数据框中提取 Assay ID。 在理想的世界中,我还希望在数字旁边(或在不同的表格中)列出每个“结果”的样本百分比。

【问题讨论】:

    标签: r data-mining dataframe


    【解决方案1】:

    试试

    table(df$Assay, df$Result,useNA="ifany")
    

    【讨论】:

    • 这很接近,但只告诉我 1 和 0 的数量,而不是 NA 的数量。
    • 相当快的更新(+1)。无论如何,我不会删除我非常相似的答案,因为我认为保留标题更优雅:)
    【解决方案2】:

    与@MYaseen208 类似,但添加了 NA 列:

    > table(df[, c('Assay', 'Result')], useNA='ifany')
         Result
    Assay 0 1 <NA>
        1 2 1    1
        2 3 1    0
        3 0 0    1
    

    见:?table

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多