python脚本：序列标识符和可能序列的数量答案

【问题标题】：python script : sequence identifier and number of possible sequencespython脚本：序列标识符和可能序列的数量
【发布时间】：2016-12-20 16:10:24
【问题描述】：

我需要为一个学校项目使用 python，但我真的不知道如何开始。

问题是： FASTA 文件包含许多 DNA 序列。不幸的是，有些符号是模棱两可的。编码是 IUPAC (http://www.bioinformatics.org/sms/iupac.html)。编写一个 Python 脚本，给定 FASTA 文件的名称，为文件中的每个序列写入序列标识符和可能序列的数量。示例：对于非常短的序列“AYGH”，可能的序列数为 6。

【问题讨论】：

我们不是来做你的工作的，Sophie，试试吧，发布代码和你遇到的错误，我们会调试它，让你学到一些东西。
检查这个：biopython.org/wiki/Seq 和这个：github.com/jordancheah/DNA-FASTA-Python
我猜你所问的已经在这里实现了：github.com/mbourgey/Concordia_Workshop_Biopython。阅读源代码并自己实现。
我知道，但我不知道如何开始......所以我需要一些帮助......
我不知道如何提供 IUPAC 代码以便我可以使用它？

标签： python fasta ambiguous

【解决方案1】：

试试这样的字典：

nucleotides = {'A':['A'], 'C':['C'], 'G':['G'], 'T':['T'], 'U':['U'], 'R':['A','G'], 'Y':['C','T'], 'S':['G','C'], 'W':['A','T'], 'K':['G','T'], 'M':['A','C'], 'B':['C','G','T'], 'D':['A','G','T'], 'H':['A','C','T'], 'V':['A','C','G'], 'N':['A','C','G','T'], '-':['-'], '.':['-']}

然后循环每个可能性，哦主序列的每个核苷酸。

【讨论】：