【发布时间】:2012-09-18 15:43:32
【问题描述】:
我有一个带有FASTA 格式排序的数据集,基本上是这样的:
>pc284
ATCGCGACTCGAC
>pc293
ACCCGACCTCAGC
我想将每个标签作为字典中的键,并将基因存储为值。
这是我的代码,但实际上什么也没做:
import re
fileData = open('d.fasta', 'r')
myDict = dict()
for line in fileData:
match = re.search('(\>)(\w+)(\r)(\w+)', line)
if match:
gene = match.group(3)
myDict[gene[0]] = gene[1]
print myDict
【问题讨论】:
-
您无法匹配回车符
\r,因为您已经逐行扫描文件。
标签: python regex dictionary bioinformatics