【发布时间】:2013-09-09 23:53:10
【问题描述】:
我正在尝试根据前 5 个和后 5 个字符对齐匹配序列。所以,例如:
AAATGCEGAIRPVOGJKKK
KKKTGKAFKEJWKLJFFFF
FFFKEJFWKFJWEKFJIGK
将对齐和连接创建:
AAATGCEGAIRPVOGJKKKTGKAFKEJWKLJFFFFKEJFWKFJWEKFJIGK
请注意,映射区域不应重复。我实际上有超过 3 行,并且它们没有排序,因此我试图创建一个循环以将所有它们对齐在一起。我不确定解决这个问题的最佳方法。
【问题讨论】:
-
你总是从第一行开始吗?如果不是,你如何选择从哪个序列开始?
-
如果匹配的可能性不止一种,应该怎么办?如果没有怎么办?
-
另外,你如何处理不匹配其他任何内容的序列。或者,如果您有一个与其他 10 个序列匹配的序列怎么办?有没有办法确定您的顺序偏好?
-
我认为
re如果您正在使用蛮力,那将是矫枉过正。使用startswith和endswith字符串方法会更有效。
标签: python bioinformatics