【发布时间】:2017-04-05 08:50:22
【问题描述】:
我无法在任何地方找到答案,我可能没有找到正确的搜索词或无法将问题转移给我。
所以我希望这里的人能够帮助我。
我有一个如下形式的 data.table dt1(我尽量保持简短,但需要包括所有可能性):
ID session
101 1
101 1
101 2
101 4
102 2
102 4
102 5
103 1
103 4
201 1
201 4
201 5
202 1
202 2
203 1
204 5
重现此的代码:
dt1 <- data.table(ID=c(101, 101, 101, 101, 102, 102, 102, 103, 103, 201, 201, 201, 202, 202, 203, 204), session=c(1, 1, 2, 4, 2, 4, 5, 1, 4, 1, 4, 5, 1, 2, 1, 5))
我在第一步中想要的是表单中的 data.table,当输入 data.frame 中有条目时,每个会话都有一个 1,没有条目时为 0。
ID 1 2 3 4 5
101 1 1 0 1 0
102 0 1 0 1 1
103 1 0 0 1 0
201 1 0 0 1 1
202 1 1 0 0 0
203 1 0 0 0 0
204 0 0 0 0 1
现在,我正在生成两个列表,
IDs <- sort(unique(dt1$ID))
sessions <- unique(dt1$session)
一个空的 data.table dt2 与 ncol=length(sessions) 和 nrow=length(IDs),以会话作为列名
dt2 <- data.table(matrix(ncol=length(sessions), nrow=length(IDs)))
colnames(dt2) <- as.character(unique(dt1$session))
以及每个 ID 的会话列表。
sesID <- split(dt1$session, dt1$ID)
然后我用两个 for 循环遍历列表。
for (i in 1:nrow(dt2)) {
for (j in 1:length(dt2)) {
if (sessions[j] %in% sesID[i]) {
set(dt2, i, j, 1)s
}
else {
set(dt2, i, j, 0)
} } }
作为第二步,如果会话介于 1 会话之间,我想将所有 0 更改为 1。
ID 1 2 3 4 5
101 1 1 1 1 0
102 0 1 1 1 1
103 1 1 1 1 0
201 1 0 0 1 1
202 1 1 0 0 0
203 1 0 0 0 0
204 0 0 0 0 1
我正在使用另外两个 for 循环来执行此操作。
for (i in 1:nrow(dt2)) {
trues <- which(dt2[i,]==1)
headTrues <- head(trues, 1)
tailTrues <- tail(trues, 1)
for (j in 1:length(dt2)){
if (j > headTrues & j < tailTrues & headTrues <= tailTrues){
set(dt2, i, j, 1)
} } }
因为这会生成一个带有 TRUE 和 FALSE 的 data.table dt3,所以我会在之后替换它们。
(to.replace <- names(which(sapply(dt3, is.logical))))
for (var in to.replace) dt3[, var:= as.numeric(get(var)), with=FALSE]
为了将 ID 保留为一列,我会在之后添加它们。
dt3$ID <- IDs
如果我没有大约 12000 个唯一 ID 并且需要进行数千次运行,那就没问题了。我很确定在 R 中有很多更好的方法可以做到这一点。只是现在还没有。
非常感谢您。
【问题讨论】:
-
第一步见
help("dcast.data.table")。
标签: r data.table