【发布时间】:2013-02-08 17:45:19
【问题描述】:
我正在尝试在包含两列的数据列表中查找唯一且重复的数据。我真的只是想比较第1列中的数据。
数据可能如下所示(由选项卡分隔):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
所以我一直在玩以下:
-
在不忽略大小写的情况下进行排序(只是“排序”,没有 -f 选项)可以减少重复项
gawk '{ FS = "\t" ;打印 $1 }' EN-IT_Corpus.txt | 排序 | uniq -i -D > 骗子
-
忽略大小写进行排序 ("sort -f") 给了我更多的重复项
gawk '{ FS = "\t" ;打印 $1 }' EN-IT_Corpus.txt | 排序-f | uniq -i -D > 骗子
如果我想查找忽略大小写的重复项,我是否认为 #2 更准确,因为它首先忽略大小写对其进行排序,然后根据排序数据查找重复项?
据我所知,我无法组合排序和唯一命令,因为排序没有显示重复项的选项。
谢谢, 史蒂夫
【问题讨论】:
-
您希望从样本数据中得到什么输出?
标签: linux sorting awk gawk uniq