【发布时间】:2015-05-28 10:12:22
【问题描述】:
我可以知道如何从 fasta 文件中提取 dna 序列吗?我尝试了床具和 samtools。 Bedtools getfasta 做得很好,但对于我的一些文件返回“警告:在 fasta 文件中找不到染色体”,但事实是 bed 文件中的染色体名称和 fasta 完全相同。我正在寻找 python 可以为我完成此任务的其他替代方法。
床文件:
chr1:117223140-117223856 3 7
chr1:117223140-117223856 5 9
快速文件:
>chr1:117223140-117223856
CGCGTGGGCTAGGGGCTAGCCCC
所需输出:
>chr1:117223140-117223856
CGTGG
>chr1:117223140-117223856
TGGGC
【问题讨论】:
-
您想要的输出似乎有误。染色体从 0 开始编号——从 BED format description 开始——因此从 cr1:117223140-117223856 中提取编号为 3 到 7 的染色体将得到 GTGGG,从中提取编号为 5 到 9 的将是 GGGCT。
标签: python bioinformatics biopython fasta bed