【发布时间】:2019-05-24 08:25:18
【问题描述】:
我正在寻找一种方法来识别具有至少 3 个序列的FASTA-files。序列由以> 开头的行标识。
以下是 5 个文件的示例:
文件1
>sp1
ATTTT
>sp3
ATTGG
>sp3
ATTGAGGAGA
>sp4
AGGGGAGGACC
>sp5
AGGGGGG
>sp5
AGGGGGG
文件2
>sp1
ATTTT
文件3
>sp1
ATTTT
>sp3
ATTGG
>sp3
ATTGAGGAGA
>sp4
AGGGGAGGACC
>sp5
AGGGGGG
文件4
>sp1
ATTTT
>sp3
ATTGG
文件5
>sp1
ATTTT
>sp3
ATTGG
>sp3
ATTGAGGAGA
>sp4
AGGGGAGGACC
>sp5
AGGGGGG
我想要输出:
file1
file3
file5
因为这些是具有至少三个序列的文件。我可以用ls 做到这一点吗?
【问题讨论】:
-
ls命令不能以这种方式查看文件内容并决定是否列出文件条目。这不是设计的目的,它只是根据要求列出目录内容和属性。您需要其他命令来识别计数,然后在条件匹配时打印文件
标签: regex shell text-processing ls fasta