【问题标题】:Unwanted repeats of string elements in a list列表中不需要的字符串元素重复
【发布时间】:2021-12-31 18:55:48
【问题描述】:

我必须使用以前的函数(它返回一个字典,其中序列 ID 作为键,最小-最大分子量区间作为元组格式的值)来编写一个新函数,给定一个 FASTA 文件名和最小-最大分子量,返回给定区间内具有分子量的序列的序列 ID 列表。该函数将返回权重区间与指定权重区间重叠的不明确序列的序列ID,以及固定权重落入指定区间的明确序列的ID。

以下函数完美运行,我得到了正确的序列,但是我没有得到一个包含每个序列 ID 的列表,而是从一个重复很多次的模棱两可的序列中得到一个包含每个 ID 的列表……可能是因为 ID 出现为很多时候,有明确的序列可以从那个不明确的序列中形成,因为对于明确的序列,ID 只出现一次。

def sequence_list(filename, min_mw, max_mw):
    with open(filename) as file:
        seq_dict = {}
        seq_list = []
        for record in SeqIO.parse(file, "fasta"):
            data = IUPACData.ambiguous_dna_values
            ambiguous_dna = list(map("".join, product(*map(data.get, record))))
            mol_weight = []
            for seq in ambiguous_dna:
                mol_weight.append(SeqUtils.molecular_weight(seq))
            tuple = (min(mol_weight),max(mol_weight))
            if min(mol_weight) != max(mol_weight):
                seq_dict[record.id] = (min(mol_weight), max(mol_weight))
            else:
                seq_dict[record.id] = min(mol_weight)
            for values in mol_weight:
                if min_mw <= values <= max_mw:
                    seq_list.append(record.id)
        print(seq_list)

(开始的)结果看起来像这样:

['seq_9143_unamb', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_1101', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_504', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077', 'seq_4077',...]

有人可以帮我解决这个问题吗?

我尝试了一些重复删除方法,但它们都返回我的列表“不可迭代”,可能是因为它是字符串列表而不是数字。

【问题讨论】:

  • 你能列出你尝试过的方法,并给出确切的错误信息吗?谢谢。
  • 如果没有 rme 真的很难理解。和你之前尝试过的。 sets 可能是一条路。
  • 我尝试了“dict.fromkeys”以及其他一些使用“pandas”包的重复删除代码。但它现在可以在最后一段代码下添加“break”,如下面的第二个答案中所建议的那样!
  • 然后接受答案

标签: python list sequence biopython


【解决方案1】:

如果您只想删除重复项,那么您可以使用dict.fromkeys 方法:

out = list(dict.fromkeys(lst).keys())

输出:

['seq_9143_unamb', 'seq_1101', 'seq_504', 'seq_4077']

【讨论】:

  • 你能不能只投射到一个集合中
  • @Ben a set 不保持顺序,这个方法可以。
【解决方案2】:

在找到匹配的权重时,您将多次追加,对于每条记录。您得到了重复项,因为在找到匹配项后此检查没有中断。更改最后一个 for 循环以包含 break,如下所示:

for values in mol_weight:
    if min_mw <= values <= max_mw:
        seq_list.append(record.id)
        break

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-06-03
    • 2016-05-25
    • 2022-11-17
    • 1970-01-01
    • 2021-01-13
    • 2015-08-06
    • 2012-12-22
    相关资源
    最近更新 更多