将数据透视表转移到 R 中的另一个表答案

【问题标题】：Transfer pivottable to another table in R将数据透视表转移到 R 中的另一个表
【发布时间】：2018-01-22 09:56:41
【问题描述】：

在我的研究中，我有一个癌症患者数据集，其中包含一些临床信息，例如癌症分期和治疗等。每个患者在表格中都有一行包含这些临床信息。此外，每位患者在治疗期间的一个或几个时间点都采集了血样，具体取决于患者在诊所接受了多长时间。第一个样本来自第一次就诊，第二个样本来自第二次就诊，以此类推。

在表中，有一个名为 Sample_Time_1 的变量（即列），它是第一个样本的时间。 Sample_Time_2 具有第二个样本的时间（日期），依此类推。

但是 - 样本在实验室进行了分析，我在数据透视表中得到了结果，这意味着我有一个表格，其中每个样本都有一行，因此来自一名患者的结果显示在多行中。

例如，创建两个表：

x  <- c(1,2,2,3,3,3,3,4,5,6,6,6,6,7,8,9,9,10)
y  <- as.Date(c("2011-05-17","2012-06-30","2012-08-11","2011-10-15","2011-11-25","2012-01-07","2012-02-15","2011-08-13","2012-02-03","2011-11-08","2011-12-21","2012-02-01","2012-03-12","2012-01-03","2012-04-20","2012-03-31","2012-05-10","2011-12-15"), format="%Y-%m-%d", origin="1960-01-01")
z  <- c(123,185,153,153,125,148,168,187,194,115,165,167,143,151,129,130,151,134)

Sheet_1  <- matrix(c(x,y,z), ncol=3, byrow=FALSE)
colnames(Sheet_1)  <- c("ID","Sample_Time", "Sample_Value")

Sheet_1  <- as.data.frame(Sheet_1)
Sheet_1$Sample_Time  <- y

x1  <- c(1,2,3,4,5,6,7,8,9,10)
x2  <- c(3,3,2,3,2,2,4,2,3,3)
x3  <- c(1,2,2,3,3,1,3,1,1,2)
x4  <- as.Date(c("2011-05-17","2012-06-30","2011-10-15","2011-08-13","2012-02-03","2011-11-08","2012-01-03","2012-04-20","2012-03-31","2011-12-15"), format="%Y-%m-%d", origin="1960-01-01")
x5  <- as.Date(c(NA,"2012-08-11","2011-11-25",NA,NA,"2011-12-21",NA,NA,"2012-05-10",NA), format="%Y-%m-%d", origin="1960-01-01")
x6  <- as.Date(c(NA,NA,"2012-01-07",NA,NA,"2012-02-01",NA,NA,NA,NA), format="%Y-%m-%d", origin="1960-01-01")
x7  <- as.Date(c(NA,NA,"2012-02-15",NA,NA,"2012-03-12",NA,NA,NA,NA), format="%Y-%m-%d", origin="1960-01-01")


Sheet_2  <- as.data.frame(c(1:10))
colnames(Sheet_2)  <- "ID"
Sheet_2$Stage  <- x2
Sheet_2$Treatment  <- x3
Sheet_2$Sample_Time_1  <- x4
Sheet_2$Sample_Time_2  <- x5
Sheet_2$Sample_Time_3  <- x6
Sheet_2$Sample_Time_4  <- x7

Sheet_2$Sample_Value_1  <- NA
Sheet_2$Sample_Value_2  <- NA
Sheet_2$Sample_Value_3  <- NA
Sheet_2$Sample_Value_4  <- NA

我想将第一次从患者身上采集样本的日期的 Sample_Value 从 Sheet_1 转移到 Sheet_2$Sample_Value_1，如果有更多样本，我想将它们转移到“Sample_Value_2”列，依此类推。

我尝试过使用双 for 循环。对于 Sheet_1 中的每个患者 (=ID)，我已经遍历了 Sheet_2，如果 ID 上有一个马赫数，那么我使用另一个 for 循环来查看 Sample_Time 上是否有一个马赫数，并插入（使用 if）Sample_Value。但是，我无法让它发挥作用，而且我有一种强烈的感觉，必须有更好的方法。

有什么建议吗？

【问题讨论】：

一个明确的问题和可用的示例数据！

标签： r pivot-table

【解决方案1】：

这是你想要的吗：

准备Sheet_1，通过为每位患者的每个血液样本引入一个具有唯一 ID 的额外列，从长到宽进行重塑

Sheet_1$uniqid <- with(Sheet_1, ave(as.character(ID), ID, FUN = seq_along))

然后，进行重新塑造

S_1 <- reshape( Sheet_1, idvar = "ID", timevar = "uniqid", direction = "wide")

给你

> S_1
   ID Sample_Time.1 Sample_Value.1 Sample_Time.2 Sample_Value.2 Sample_Time.3
1   1    2011-05-17            123          <NA>             NA          <NA>
2   2    2012-06-30            185    2012-08-11            153          <NA>
4   3    2011-10-15            153    2011-11-25            125    2012-01-07
8   4    2011-08-13            187          <NA>             NA          <NA>
9   5    2012-02-03            194          <NA>             NA          <NA>
10  6    2011-11-08            115    2011-12-21            165    2012-02-01
14  7    2012-01-03            151          <NA>             NA          <NA>
15  8    2012-04-20            129          <NA>             NA          <NA>
16  9    2012-03-31            130    2012-05-10            151          <NA>
18 10    2011-12-15            134          <NA>             NA          <NA>
   Sample_Value.3 Sample_Time.4 Sample_Value.4
1              NA          <NA>             NA
2              NA          <NA>             NA
4             148    2012-02-15            168
8              NA          <NA>             NA
9              NA          <NA>             NA
10            167    2012-03-12            143
14             NA          <NA>             NA
15             NA          <NA>             NA
16             NA          <NA>             NA
18             NA          <NA>             NA

列名中点后面的数字是uniqid。

现在您可以合并来自Sheet_2 的相关列

S_2 <- merge( Sheet_2[ 1:3 ], S_1, by = "ID" )

结果应该是您正在寻找的结果：

> S_2
   ID Stage Treatment Sample_Time.1 Sample_Value.1 Sample_Time.2 Sample_Value.2
1   1     3         1    2011-05-17            123          <NA>             NA
2   2     3         2    2012-06-30            185    2012-08-11            153
3   3     2         2    2011-10-15            153    2011-11-25            125
4   4     3         3    2011-08-13            187          <NA>             NA
5   5     2         3    2012-02-03            194          <NA>             NA
6   6     2         1    2011-11-08            115    2011-12-21            165
7   7     4         3    2012-01-03            151          <NA>             NA
8   8     2         1    2012-04-20            129          <NA>             NA
9   9     3         1    2012-03-31            130    2012-05-10            151
10 10     3         2    2011-12-15            134          <NA>             NA
   Sample_Time.3 Sample_Value.3 Sample_Time.4 Sample_Value.4
1           <NA>             NA          <NA>             NA
2           <NA>             NA          <NA>             NA
3     2012-01-07            148    2012-02-15            168
4           <NA>             NA          <NA>             NA
5           <NA>             NA          <NA>             NA
6     2012-02-01            167    2012-03-12            143
7           <NA>             NA          <NA>             NA
8           <NA>             NA          <NA>             NA
9           <NA>             NA          <NA>             NA
10          <NA>             NA          <NA>             NA

【讨论】：

这绝对是我想要的。我目前无法在我自己的数据上进行尝试，但今天晚些时候我会的。它看起来比你很有希望