【发布时间】:2014-11-26 11:45:37
【问题描述】:
我经常需要在 fasta 文件中找到特定的序列并打印出来。对于那些不知道的人,fasta 是一种用于生物序列(DNA、蛋白质等)的文本文件格式。这很简单,你有一行序列名称以'>'开头,然后直到下一个'>'之后的所有行都是序列本身。例如:
>sequence1
ACTGACTGACTGACTG
>sequence2
ACTGACTGACTGACTG
ACTGACTGACTGACTG
>sequence3
ACTGACTGACTGACTG
我目前获得所需序列的方式是使用 grep 和 -A,所以我会这样做
grep -A 10 sequence_name filename.fa
如果我在文件中看不到下一个序列的开始,我会将 10 更改为 20 并重复,直到我确定我得到了整个序列。
似乎应该有更好的方法来做到这一点。例如,我可以要求它打印到下一个 '>' 字符吗?
【问题讨论】: