【发布时间】:2016-03-21 22:43:47
【问题描述】:
我更愿意在 R 中执行以下操作,但对(易于学习)其他解决方案持开放态度。
我有多个(比如说 99 个)制表符分隔的文件(我们称它们为 S1.txt 到 S99.txt)和表格,所有文件都具有完全相同的格式。每个表大约 2,000,000 列乘以 5 行。这是一个玩具示例:
ID Chr Position DP1 DP2
A1 1 123 1.5 2.0
A2 1 124 1.4 0.3
根据定义,ID 是唯一的并且总是以相同的顺序排列,Chr 和 Pos 总是以相同的顺序排列。每个输入文件中唯一不同的是 DP1 列和 DP2 列。我想“整理”的输出表就是这个词。如果只有 3 个示例输入文件,这是一个输出示例。
ID Chr Position S1.DP1 S1.DP2 S2.DP1 S2.DP2 S3.DP1 S3.DP2
A1 1 123 1.5 2.0 1.2 2.0 1.5 2.1
A2 1 124 1.4 0.3 1.0 0.5 0.5 0.05
请注意,每个输入文件都有一个为 DP1 和 DP2 创建的新列。此外,列的名称提供信息(告诉我它来自哪个输入文件以及哪个数据点 - DP)。
我发现了列何时不同的问题: R: merging a lot of data.frames 我也知道合并,虽然我觉得你最终得到了奇怪的列名: How to join (merge) data frames (inner, outer, left, right)?
我的另一个解决方案是初始化一个数据框,然后加载每个文件并添加数据点,但这会使用循环并且非常缓慢和可怕。 所以,我需要一个更优雅的解决方案。感谢您的帮助。
【问题讨论】: