【问题标题】:case insensitive for sets in pythonpython中的集合不区分大小写
【发布时间】:2017-08-13 05:12:45
【问题描述】:

我有一个从多个列表生成的列表。此组合列表包含最终用户生成的名称。因此包含相似的名称,但具有不同的大写/小写字符。 我想过滤掉包含相同字符的名称,只保留在原始列表中找到的第一个。

例如,我有以下列表:

L0 = ['A_B Cdef', 'A_B Cdef', 'A_B Cdef', 'A_B CdEF', 'A_B CDEF','a_B CdEF', 'A_b CDEF', 'GG_ooo', 'a1-23456']

如果我跑步:

L1 = list(set(L0))

我明白了:

['a1-23456', 'A_B Cdef', 'A_B CdEF', 'A_B CDEF', 'a_B CdEF', 'A_b CDEF', 'GG_ooo']

我想只保留第一个具有相同字符的名称。

所以我的结果是:

['a1-23456', 'A_B Cdef', 'GG_ooo']

如果我使用 .lower().upper() 我会得到列表,但名称是小写/大写的。

我只想消除“重复”而不考虑区分大小写的方法。

非常感谢您的帮助。

谢谢!

【问题讨论】:

标签: python set case


【解决方案1】:

您可以使用集合跟踪值的.lower() 版本,然后如果集合中没有它们的.lower() 版本,则将原始值附加到新列表中:

s = set()
L = []
for x in L0:
  if x.lower() not in s:
      s.add(x.lower())
      L.append(x)

print(L)
# ['A_B Cdef', 'GG_ooo', 'a1-23456']

【讨论】:

  • 该死的打败我了 ;)
【解决方案2】:

改用散列,我不认为你可以用集合轻松地做到这一点。

L0 = {value.lower(): value for value in L0[::-1]}.values()

【讨论】:

  • 谢谢大家的回答!我认为这是编码量最少的一个。
  • 它可能是编码量最少的那个,但正如@PM2Ring 指出的那样,它也是错误的,因为您说“只保留第一个找到的”。这会保留最后找到的。
  • @TomWyllie 代码已经更新为向后扫描源列表,所以现在它达到了预期的目标。
【解决方案3】:

您已经有了几个很好的答案,下面的代码对于您的用例来说可能是多余的,但只是为了好玩,我创建了一个简单的不区分大小写的可变集合类。请注意,它会保留它找到的 first 字符串,而不是让它被后面的条目破坏。

import collections.abc

class CasefoldSet(collections.abc.MutableSet):
    def __init__(self, iterable=None):
        self.elements = {} 
        if iterable is not None:
            for v in iterable:
                self.add(v)

    def __contains__(self, value):
        return value.casefold() in self.elements

    def add(self, value):
        key = value.casefold()
        if key not in self.elements:
            self.elements[key] = value

    def discard(self, value):
        key = value.casefold()
        if key in self.elements:
            del self.elements[key]

    def __len__(self):
        return len(self.elements)

    def __iter__(self):
        return iter(self.elements.values())

    def __repr__(self):
        return '{' + ', '.join(map(repr, self)) + '}'

# test

l0 = [
    'GG_ooo', 'A_B Cdef', 'A_B Cdef', 'A_B Cdef', 
    'A_B CdEF', 'A_B CDEF', 'a_B CdEF', 'A_b CDEF', 'a1-23456',
]

l1 = CasefoldSet(l0[:4])
print(l1)
l1 |= l0[4:]
print(l1)
l2 = {'a', 'b', 'A_B Cdef'} | l1
print(l2)
l3 = l2 & {'a', 'GG_ooo', 'a_B CdEF'}
print(l3)

输出

{'GG_ooo', 'A_B Cdef'}
{'GG_ooo', 'A_B Cdef', 'a1-23456'}
{'GG_ooo', 'A_B Cdef', 'a1-23456', 'b', 'a'}
{'a_B CdEF', 'a', 'GG_ooo'}

这个类从collections.abc.MutableSet 继承了各种有用的方法,但是要完全替代set,它确实需要更多的方法。请注意,如果您尝试将非字符串项目传递给它,它将引发AttributeError

【讨论】:

  • 正如您指出的那样,对于 OP 来说太过分了,但对其他人可能非常有用。 :)
【解决方案4】:

如果你想按规矩来玩,我能想到的最好的解决办法就是有点乱,用set来追踪出现了哪些词;

seen_words = set()
L1 = []
for word in L0:
    if word.lower() not in seen_words:
        L1.append(word)
        seen_words.add(word.lower())

如果你想变得更hackier,有一个更优雅的解决方案,你可以使用字典来跟踪哪些单词已经被看到,它几乎是单行的;

seen_words = {}
L1 = [seen_words.setdefault(word.lower(), word) 
      for word in L0 if word.lower() not in seen_words]
print(L1)

两种解决方案输出相同的结果;

['A_B Cdef', 'GG_ooo', 'a1-23456']

【讨论】:

  • 可爱,虽然有些人不赞成你的列表理解有副作用(变异seen_words)......或者纯粹使用字典而不是集合,所以你可以使用list comp 而不是“传统的” for 循环。 ;)
  • 我最初有一个基于集合的解决方案,但正如您指出的那样,这里肯定存在折衷,毫无疑问,第二个解决方案更优雅但更hacky。我可能会同时包含两者并让 OP 实际上选择。
  • 当然,第一个版本更长,但它使用的 RAM 更少,并且没有讨厌的副作用,所以我将其归类为 Pythonic。
  • @Tom Wyllie - 谢谢。这个解决方案也非常优雅。并且确实保留了遇到的第一个值。谢谢。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-01-22
  • 1970-01-01
  • 1970-01-01
  • 2019-09-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多