【发布时间】:2013-07-10 11:59:40
【问题描述】:
我有一个 12 列的 txt 文件。有些行是重复的,有些则不是。例如,我复制到数据的前 4 列。
0 0 chr12 48548073
0 0 chr13 80612840
2 0 chrX 4000600
2 0 chrX 31882528
3 0 chrX 3468481
4 0 chrX 31882726
4 0 chr3 75007624
根据第一列,您可以看到除了条目 '3' 之外还有一些重复项。 我想打印唯一的单个条目,在本例中为“3”。
输出将是
3 0 chrX 3468481
有没有使用 awk 或 perl 的快速方法?我只能考虑在 perl 中使用 for 循环,但考虑到我有大约 150 万个条目,这可能需要一些时间。
【问题讨论】:
-
总是 12 列?仅基于第一列或所有行的比较?
-
它总是 12 列,是的,比较应该只基于第一列。但是一旦找到单个条目,我想打印所有列。
标签: perl awk duplicates unique uniq