【发布时间】:2021-12-31 18:55:48
【问题描述】:
我必须使用以前的函数(它返回一个字典,其中序列 ID 作为键,最小-最大分子量区间作为元组格式的值)来编写一个新函数,给定一个 FASTA 文件名和最小-最大分子量,返回给定区间内具有分子量的序列的序列 ID 列表。该函数将返回权重区间与指定权重区间重叠的不明确序列的序列ID,以及固定权重落入指定区间的明确序列的ID。
以下函数完美运行,我得到了正确的序列,但是我没有得到一个包含每个序列 ID 的列表,而是从一个重复很多次的模棱两可的序列中得到一个包含每个 ID 的列表……可能是因为 ID 出现为很多时候,有明确的序列可以从那个不明确的序列中形成,因为对于明确的序列,ID 只出现一次。
def sequence_list(filename, min_mw, max_mw):
with open(filename) as file:
seq_dict = {}
seq_list = []
for record in SeqIO.parse(file, "fasta"):
data = IUPACData.ambiguous_dna_values
ambiguous_dna = list(map("".join, product(*map(data.get, record))))
mol_weight = []
for seq in ambiguous_dna:
mol_weight.append(SeqUtils.molecular_weight(seq))
tuple = (min(mol_weight),max(mol_weight))
if min(mol_weight) != max(mol_weight):
seq_dict[record.id] = (min(mol_weight), max(mol_weight))
else:
seq_dict[record.id] = min(mol_weight)
for values in mol_weight:
if min_mw <= values <= max_mw:
seq_list.append(record.id)
print(seq_list)
(开始的)结果看起来像这样:
['seq_9143_unamb', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077',...]
有人可以帮我解决这个问题吗?
我尝试了一些重复删除方法,但它们都返回我的列表“不可迭代”,可能是因为它是字符串列表而不是数字。
【问题讨论】:
-
你能列出你尝试过的方法,并给出确切的错误信息吗?谢谢。
-
如果没有 rme 真的很难理解。和你之前尝试过的。 sets 可能是一条路。
-
我尝试了“dict.fromkeys”以及其他一些使用“pandas”包的重复删除代码。但它现在可以在最后一段代码下添加“break”,如下面的第二个答案中所建议的那样!
-
然后接受答案
标签: python list sequence biopython