解析fasta文件头答案

【问题标题】：Parse fasta file headers解析fasta文件头
【发布时间】：2014-03-27 13:36:38
【问题描述】：

我想为每个 fasta 标题添加一个额外的列，其中包含由空格分隔的字段 4（假设 '|' 是输入文件标题中的字段分隔符）。

这次没有可行的想法。

输入文件：

>gi|568301760|ref|NC_023137.1| Phaeobacter gallaeciensis DSM 26640, complete genome
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

期望的输出：

>NC_023137.1 gi|568301760|ref|NC_023137.1| Phaeobacter gallaeciensis DSM 26640, complete genome
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

【问题讨论】：

也许您应该尝试找到一个可以为您解析 fasta 文件的好模块？
metacpan.org/pod/Bio::Perl

标签： python perl parsing awk

【解决方案1】：

Perl 选项：

perl -F"[>|]" -pae 's/^>/>$F[4] /' file.fa

输出：

>NC_023137.1 gi|568301760|ref|NC_023137.1| Phaeobacter gallaeciensis DSM 26640, complete genome
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

希望这会有所帮助！

【讨论】：

【解决方案2】：

有些是这样的：

awk -F"[>|]" '/^>/ {$1=">"$5}8' OFS="|" file
>NC_023137.1|gi|568301760|ref|NC_023137.1| Phaeobacter gallaeciensis DSM 26640, complete genome
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

这应该使> 和| 正确：

awk -F"[|]" '/^>/ {$0=substr($0,1,1)$4" "substr($0,2)}1' file
>NC_023137.1 gi|568301760|ref|NC_023137.1| Phaeobacter gallaeciensis DSM 26640, complete genome
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

【讨论】：