【发布时间】:2017-04-27 18:40:11
【问题描述】:
我想导入没有偶数行长度的 txt 文件,并且每一行都包含带有出现数量或没有任何变量的变量名称 - 只是 ID。每一列都用空格隔开。
样本数据如下:
V1 V2 Variables:Qty
1234 0001 38571:20
1235 0007 83744:1 74572:12 29401:12
8485 1284 74572:1 38571:16
9412 8310
我需要达到的目标如下:
V1 V2 38571 83744 74572 29401
1234 0001 20 0 0 0
1235 0007 0 1 12 12
8485 1284 16 0 1 0
9412 8310 0 0 0 0
数据文件很大,包含超过 8000 行和 600 个唯一变量 (XXXXX:X),如前所述,每列以空格分隔。
如果有人对如何做有一些建议,请告知。我想到了 dplyr/tidyr 中的任何一个,但不知道如何解决它。
编辑: 原始数据文件:
1234 0001 38571:20
1235 0007 83744:1 74572:12 29401:12
8485 1284 74572:1 38571:16
9412 8310
我用下面的代码加载它:
data <- data.table(read.table("data.txt", sep = " ", fill = TRUE))
我的 data.frame 有 5 列
V1 V2 V3 V4 V5
1: 1234 1 38571:20
2: 1235 7 83744:1 74572:12 29401:12
3: 8485 1284 74572:1 38571:16
4: 9412 8310
我还有一个问题,在使用 R 上方的代码导入我的实际数据后,仅生成 26 个变量,而它应该超过 50 列(剩余的 24 个变量被视为新行,这绝对没有意义)。我认为这是长度选择的问题。
【问题讨论】:
-
SO 指定单个问题并强烈建议minimal reproducible exampleS
标签: r data-manipulation