【发布时间】:2017-02-13 15:07:00
【问题描述】:
我有大量数据文件需要通过以下方式连接。
第 1 步。
需要在“位置”中连接数据,这些位置令人讨厌地分为两部分(A 部分和 B 部分)。这些文件存储在一个文件夹中,具有随机的、不连续的位置编号,例如:
PartA_location012843.csv
PartB_location012843.csv
PartA_location465475.csv
PartB_location465475.csv
...
有没有办法遍历所有文件,在每个位置连接 A 和 B 部分,而无需手动指定位置 ID 号?
然后连接将是来自dplyr 的简单left_join(PartA_locationX, PartB_locationX, by='common_field')。我猜输出将是 R 工作空间中的一系列数据框对象,每个位置一个:
location012843
location465475
...
第 2 步。
接下来,需要将所有位置一起附加到一个带有rjoin 的数据帧中,并保留location_id,这样:
location_id fieldA fieldB common_field
1 location012843 x y c
2 location012843 x y c
...
【问题讨论】: