【发布时间】:2009-11-15 19:32:44
【问题描述】:
我有一个格式如下的 DNA 文件:
>gi|5524211|gb|AAD44166.1| cytochrome
ACCAGAGCGGCACAGCAGCGACATCAGCACTAGCACTAGCATCAGCATCAGCATCAGC
CTACATCATCACAGCAGCATCAGCATCGACATCAGCATCAGCATCAGCATCGACGACT
ACACCCCCCCCGGTGTGTGTGGGGGGTTAAAAATGATGAGTGATGAGTGAGTTGTGTG
CTACATCATCACAGCAGCATCAGCATCGACATCAGCATCAGCATCAGCATCGACGACT
TTCTATCATCATTCGGCGGGGGGATATATTATAGCGCGCGATTATTGCGCAGTCTACG
TCATCGACTACGATCAGCATCAGCATCAGCATCAGCATCGACTAGCATCAGCTACGAC
如何读取此文件并提取 DNA 序列部分 (ACCAGAGCGG...) 而不使用任何换行符,例如:
ACCAGAGCGGCACAGCAGCGACATCAGCACTAGCACTAGCATCAGCATCAGCATCAGCCTACATCATCACAGCAGCATCA
也许不需要正则表达式?
【问题讨论】:
-
您在这个 DNA 项目中提出了很多关于 Python 的问题。
-
@jed - 但至少答案被标记为已接受(并希望被投票)。
-
我是 python 的菜鸟,这就是为什么。
-
虽然我喜欢 python,如果你想要这种类型的计算速度,你应该使用 ncbi.nlm.nih.gov/staff/tao/URLAPI/blastall/…>,虽然它可能是一个小节目,但它肯定会比重新发明轮子。这是一个看起来不错的 bips.u-strasbg.fr/fr/Tutorials/Comparison/Blast/…>。