【发布时间】:2013-12-11 05:43:50
【问题描述】:
假设我有一串 DNA 'GAAGGAGCGGCGCCCAAGCTGAGATAGCGGCTAGAGGCGGGTAACCGGCA'
考虑前 5 个字母:GAAGG
我想用与它们出现的可能性相对应的某个数字替换每个重叠的二元组 'GA','AA','AG','GG',并将它们相加。比如'GA' = 1,'AA' = 2,'AG' = .7,'GG' = .5。所以对于 GAAGG,我的 sumAnswer = 1 + 2 + .7 + 5。
所以在伪代码中,我想... - 遍历我的 DNA 字符串中的每个重叠的二元组 - 找到每个唯一二元组对的对应值 - 迭代地对每个值求和
我不确定如何迭代每一对。我认为 for 循环会起作用,但这并不能解释重叠:它打印每 2 对 (GAGC = GA,GC),而不是每个重叠的 2 对 (GAGC = GA,AG,GC)
for i in range(0, len(input), 2):
print input[i:i+2]
有什么建议吗?
【问题讨论】:
标签: python string for-loop iterator n-gram