列表中不需要的字符串元素重复答案

【问题标题】：Unwanted repeats of string elements in a list列表中不需要的字符串元素重复
【发布时间】：2021-12-31 18:55:48
【问题描述】：

我必须使用以前的函数（它返回一个字典，其中序列 ID 作为键，最小-最大分子量区间作为元组格式的值）来编写一个新函数，给定一个 FASTA 文件名和最小-最大分子量，返回给定区间内具有分子量的序列的序列 ID 列表。该函数将返回权重区间与指定权重区间重叠的不明确序列的序列ID，以及固定权重落入指定区间的明确序列的ID。

以下函数完美运行，我得到了正确的序列，但是我没有得到一个包含每个序列 ID 的列表，而是从一个重复很多次的模棱两可的序列中得到一个包含每个 ID 的列表……可能是因为 ID 出现为很多时候，有明确的序列可以从那个不明确的序列中形成，因为对于明确的序列，ID 只出现一次。

def sequence_list(filename, min_mw, max_mw):
    with open(filename) as file:
        seq_dict = {}
        seq_list = []
        for record in SeqIO.parse(file, "fasta"):
            data = IUPACData.ambiguous_dna_values
            ambiguous_dna = list(map("".join, product(*map(data.get, record))))
            mol_weight = []
            for seq in ambiguous_dna:
                mol_weight.append(SeqUtils.molecular_weight(seq))
            tuple = (min(mol_weight),max(mol_weight))
            if min(mol_weight) != max(mol_weight):
                seq_dict[record.id] = (min(mol_weight), max(mol_weight))
            else:
                seq_dict[record.id] = min(mol_weight)
            for values in mol_weight:
                if min_mw <= values <= max_mw:
                    seq_list.append(record.id)
        print(seq_list)

（开始的）结果看起来像这样：

['seq_9143_unamb', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077',...]

有人可以帮我解决这个问题吗？

我尝试了一些重复删除方法，但它们都返回我的列表“不可迭代”，可能是因为它是字符串列表而不是数字。

【问题讨论】：

你能列出你尝试过的方法，并给出确切的错误信息吗？谢谢。
如果没有 rme 真的很难理解。和你之前尝试过的。 sets 可能是一条路。
我尝试了“dict.fromkeys”以及其他一些使用“pandas”包的重复删除代码。但它现在可以在最后一段代码下添加“break”，如下面的第二个答案中所建议的那样！
然后接受答案

标签： python list sequence biopython

【解决方案1】：

如果您只想删除重复项，那么您可以使用dict.fromkeys 方法：

out = list(dict.fromkeys(lst).keys())

输出：

['seq_9143_unamb', 'seq_1101', 'seq_504', 'seq_4077']

【讨论】：

你能不能只投射到一个集合中
@Ben a set 不保持顺序，这个方法可以。

【解决方案2】：

在找到匹配的权重时，您将多次追加，对于每条记录。您得到了重复项，因为在找到匹配项后此检查没有中断。更改最后一个 for 循环以包含 break，如下所示：

for values in mol_weight:
    if min_mw <= values <= max_mw:
        seq_list.append(record.id)
        break

【讨论】：