【发布时间】:2017-08-11 17:34:18
【问题描述】:
如果您在以下方面提供帮助,我将不胜感激。
我有以下文件(file.txt),大约有 10,000 行:
ID1 ID2 0 1 0.5 0.6
ID3 ID4 0 0 0.4 0.8
ID1 ID5 0 1 0.5 0.3
ID6 ID2 1 0 0.4 0.8
前两列中的 ID 在文件中可能出现 1 到 10 次(在第 1 列或第 2 列中)。
我想要达到的目标:
我想逐行扫描此文件,如果 ID 满足以下条件,则将其打印到不断增长的排除列表中:
我的标准如下:
If $3 > $4, print $2 (ID2) to exclusionlist.txt
If $3 < $4, print $1 (ID1) to exclusionlist.txt
If $3 = $4 and $5 < $6, print $2 (ID2) to exclusionlist.txt
If $3 = $4 and $5 > $6, print $1 (ID1) to exclusionlist.txt
因此,将其应用于第 1 行,ID1 应该在我的排除列表中,因为 $3
然后我想删除文件中出现排除列表中该 ID 的 所有 行。 (最多可以有 10 行)。
扫描第 1 行后,file.txt 的输出应如下所示:
ID3 ID4 0 0 0.4 0.8
ID6 ID2 1 0 0.4 0.8
还有exclusionlist.txt: ID1
然后我想从新的第 1 行重新开始(因为原来的第 1 行将根据定义被删除),并执行相同的过程,但继续将我的排除从新的第 1 行添加到相同的排除列表中。
这是尝试过的。这意味着必须将 file.txt 重命名为 1.txt
#! bin/bash
for i in {1..5000}
do
awk 'NR==1{print;}' $i.txt
awk '{if ($3>$4 || $3==$4 && $5<$6) print $2;}' $i.txt > exclusionlist_$i.txt
awk '{if ($3>$4 || $3==$4 && $5>$6) print $1;}' $i.txt >> exclusionlist_$i.txt
grep -v -f exclusionlist_$i.txt $i.txt > $((i+1)).txt
rm $i.txt
done
由于我糟糕的脚本编写技巧,我不得不:(1) 在每次循环后重命名我的文件,以便它能够连续执行,以及 (2) 每次循环都有一个新的排除列表,而不是单个“主”排除列表 - 我可以轻松地将它们全部连接到最后,所以这不是一个主要问题,但很混乱。
我遇到的问题是这个命令似乎扫描了整个文件(而不仅仅是第 1 行),从第一次运行开始就创建了一个长的排除列表。
任何帮助/建议将不胜感激。
谢谢。
GB
【问题讨论】:
-
根据您的标准,应该保留的唯一行是
$3 == $4 && $5 == $6 -
@GB44444 看得到解决方案后该怎么办meta.stackexchange.com/questions/5234/…