【发布时间】:2014-08-07 03:22:20
【问题描述】:
我搜索了这个主题,但没有找到。我有 5593 个多 fasta 文件,我需要计算每个物种 id 在每个文件中出现的次数。 我只能识别每个物种的序列总数,但我无法识别输入文件。
输入
file1.fasta:
>hsa
ATCGATCGATCAGACTACG
>eco
ATCGATCGATCAGACTACG
file2.fasta:
>hsa
GATCGATCAGACTACGAAA
>hsa
GATCGATCACAGACTACGAAA
file3.fasta:
>hsa
CTAGACTAGATAGACACATAGAGA
>ecj
CTAGACTAGCTAGACCCATAGAGA
>mmu
CTAGACAAGATAGACACAAAGAGA
>eco
CTAGACTACATCGACACATAGAGA
预期输出
file1.fasta >hsa [count]
file1.fasta >eco [count]
file2.fasta >hsa [count]
file3.fasta >hsa [count]
file3.fasta >ecj [count]
file3.fasta >mmu [count]
file3.fasta >eco [count]
awk /^>.../ {print $1} *.* | sort | uniq -c | sort -nr
输出
[total counts]>hsa
[total counts]>eco
[total counts]>mmu
[total counts]>ecj
【问题讨论】: