Python - 删除重叠列表答案

【问题标题】：Python - Removing overlapping listsPython - 删除重叠列表
【发布时间】：2013-04-25 03:20:50
【问题描述】：

假设我有一个索引为 [[start, end], [start1, end1], [start2, end2]] 的列表。

例如：

[[0, 133], [78, 100], [25, 30]].

如何检查列表之间的重叠并每次删除长度较长的列表？所以：

>>> list = [[0, 133], [78, 100], [25, 30]]
>>> foo(list)
[[78, 100], [25, 30]]

这是我目前尝试做的：

def cleanup_list(list):
    i = 0
    c = 0
    x = list[:]
    end = len(x)
    while i < end-1:
        for n in range(x[i][0], x[i][1]):
            if n in range(x[i+1][0], x[i+1][1]):
                list.remove(max(x[i], x[i+1]))
        i +=1
    return list

但除了有点令人费解之外，它还不能正常工作：

 >>>cleanup_list([[0,100],[9,10],[12,90]])
 [[0, 100], [12, 90]]

任何帮助将不胜感激！

编辑：

其他示例如下：

>>>a = [[0, 100], [4, 20], [30, 35], [30, 78]]
>>>foo(a)
[[4, 20], [30, 35]]

>>>b = [[30, 70], [25, 40]]
>>>foo(b)
[[25, 40]]

我基本上是在尝试删除所有与另一个列表重叠的最长列表。在这种情况下，我不必担心列表的长度相等。

谢谢！！

【问题讨论】：

([[0,100],[9,10],[12,90]]) 应该转到[[0,100]] 对吗？
我担心如果有三个或更多重叠，这将是一个定义不明确的问题
我正在尝试实际删除 [0, 100] 并获取 [[9, 10], [12, 90]]
抱歉，我不太清楚你的意思？
@user2338068: 你能告诉我们一些输入/输出组合示例

标签： python algorithm list

【解决方案1】：

要从列表中删除最少数量的间隔，使留下的间隔不重叠，O(n*log n) 算法存在：

def maximize_nonoverlapping_count(intervals):
    # sort by the end-point
    L = sorted(intervals, key=lambda (start, end): (end, (end - start)),
               reverse=True) # O(n*logn)
    iv = build_interval_tree(intervals) # O(n*log n)
    result = []
    while L: # until there are intervals left to consider
        # pop the interval with the smallest end-point, keep it in the result
        result.append(L.pop()) # O(1)
        # remove intervals that overlap with the popped interval
        overlapping_intervals = iv.pop(result[-1]) # O(log n + m)
        remove(overlapping_intervals, from_=L) 
    return result

它应该产生以下结果：

f = maximize_nonoverlapping_count
assert f([[0, 133], [78, 100], [25, 30]]) == [[25, 30], [78, 100]]
assert f([[0,100],[9,10],[12,90]]) == [[9,10], [12, 90]]
assert f([[0, 100], [4, 20], [30, 35], [30, 78]]) == [[4, 20], [30, 35]]
assert f([[30, 70], [25, 40]]) == [[25, 40]]

它需要可以在O(log n + m)时间找到与给定时间间隔重叠的所有时间间隔的数据结构，例如IntervalTree。有一些实现可以从 Python 中使用，例如 quicksect.py，有关示例用法，请参见 Fast interval intersection methodologies。

这是上述算法的基于quicksect的O(n**2)实现：

from quicksect import IntervalNode

class Interval(object):
    def __init__(self, start, end):
        self.start = start
        self.end = end
        self.removed = False

def maximize_nonoverlapping_count(intervals):
    intervals = [Interval(start, end) for start, end in intervals]
    # sort by the end-point
    intervals.sort(key=lambda x: (x.end, (x.end - x.start)))   # O(n*log n)
    tree = build_interval_tree(intervals) # O(n*log n)
    result = []
    for smallest in intervals: # O(n) (without the loop body)
        # pop the interval with the smallest end-point, keep it in the result
        if smallest.removed:
            continue # skip removed nodes
        smallest.removed = True
        result.append([smallest.start, smallest.end]) # O(1)

        # remove (mark) intervals that overlap with the popped interval
        tree.intersect(smallest.start, smallest.end, # O(log n + m)
                       lambda x: setattr(x.other, 'removed', True))
    return result

def build_interval_tree(intervals):
    root = IntervalNode(intervals[0].start, intervals[0].end,
                        other=intervals[0])
    return reduce(lambda tree, x: tree.insert(x.start, x.end, other=x),
                  intervals[1:], root)

注意：对于此实现，最坏情况下的时间复杂度为 O(n**2)，因为间隔仅被标记为已删除，例如，想象这样的输入 intervals 与 len(result) == len(intervals) / 3 并且有 len(intervals) / 2 间隔跨越整个范围然后tree.intersect() 将被调用n/3 次，每个调用将执行x.other.removed = True 至少n/2 次，即n*n/6 操作总数：

n = 6
intervals = [[0, 100], [0, 100], [0, 100], [0, 10], [10, 20], [15, 40]])
result = [[0, 10], [10, 20]]

这是一个基于banyan 的O(n log n) 实现：

from banyan import SortedSet, OverlappingIntervalsUpdator # pip install banyan

def maximize_nonoverlapping_count(intervals):
    # sort by the end-point O(n log n)
    sorted_intervals = SortedSet(intervals,
                                 key=lambda (start, end): (end, (end - start)))
    # build "interval" tree O(n log n)
    tree = SortedSet(intervals, updator=OverlappingIntervalsUpdator)
    result = []
    while sorted_intervals: # until there are intervals left to consider
        # pop the interval with the smallest end-point, keep it in the result
        result.append(sorted_intervals.pop()) # O(log n)

        # remove intervals that overlap with the popped interval
        overlapping_intervals = tree.overlap(result[-1]) # O(m log n)
        tree -= overlapping_intervals # O(m log n)
        sorted_intervals -= overlapping_intervals # O(m log n)
    return result

注意：此实现认为[0, 10] 和[10, 20] 间隔是重叠的：

f = maximize_nonoverlapping_count
assert f([[0, 100], [0, 10], [11, 20], [15, 40]]) == [[0, 10] ,[11, 20]]
assert f([[0, 100], [0, 10], [10, 20], [15, 40]]) == [[0, 10] ,[15, 40]]

sorted_intervals 和 tree 可以合并：

from banyan import SortedSet, OverlappingIntervalsUpdator # pip install banyan

def maximize_nonoverlapping_count(intervals):
    # build "interval" tree sorted by the end-point O(n log n)
    tree = SortedSet(intervals, key=lambda (start, end): (end, (end - start)),
                     updator=OverlappingIntervalsUpdator)
    result = []
    while tree: # until there are intervals left to consider
        # pop the interval with the smallest end-point, keep it in the result
        result.append(tree.pop()) # O(log n)

        # remove intervals that overlap with the popped interval
        overlapping_intervals = tree.overlap(result[-1]) # O(m log n)
        tree -= overlapping_intervals # O(m log n)
    return result

【讨论】：

非常感谢！我是编码新手，所以其中一些内容有点令人困惑-但我会通读您的链接。但要澄清一下，build_interval_tree 是不是一个我必须创建的函数，它类似于 quicksect.py 中的代码？
@user2338068：我添加了一个基于 quicksect 的实现，以展示它的外观（如果您下载 quicksect.py 并将其放在与脚本相同的目录中，则可以运行它） .
@user2338068: 我添加了基于banyan的O(n log n) 实现（banyan 不是纯 Python（C++ 用于为 Python 编写 C 扩展），因此它可能会使其更难安装）。
现在很多事情都在我的脑海中，但我会尽可能地完成它。谢谢老兄，我真的很感激。

【解决方案2】：

这可能不是最快的解决方案，但非常详细和清晰 - 我认为。

a = [[2,100], [4,10], [77,99], [38,39], [44,80], [69,70], [88, 90]]

# build ranges first
def expand(list):
    newList = []
    for r in list:
        newList.append(range(r[0], r[1] + 1))
    return newList


def compare(list):
    toBeDeleted = []
    for index1 in range(len(list)):
        for index2 in range(len(list)):
            if index1 == index2:
                # we dont want to compare ourselfs
                continue
            matches = [x for x in list[index1] if x in list[index2]]
            if len(matches) != 0: # do we have overlap?
                ## compare lengths and get rid of the longer one
                if   len(list[index1]) > len(list[index2]):
                    toBeDeleted.append(index1)
                    break
                elif len(list[index1]) < len(list[index2]):
                    toBeDeleted.append(index2)
    # distinct
    toBeDeleted = [ toBeDeleted[i] for i,x in enumerate(toBeDeleted) if x not in toBeDeleted[i+1:]] 
    print len(list)
    # remove items
    for i in toBeDeleted[::-1]:
        del list[i] 
    return list


print(compare(expand(a)))

【讨论】：

此解决方案可能会删除太多，即它可能返回的非重叠间隔少于可能保留的间隔。不必要的是O(n**4)。目前尚不清楚distinct 计算是否正确，您的意思是toBeDeleted = set(toBeDeleted) 还是别的什么？ list 是内置名称，请避免将其用作变量。
你是对的：它并不快速（尤其是与你的相比），但它更冗长且更容易维护恕我直言。 toBeDeleted = set(toBeDeleted) 就像我的 for理解所做的那样，如果你不知道 set() 就更明显了。也许我的问题错了，但我没有注意到任何不重叠的删除。感谢您的意见！
要明确 1. 此解决方案不起作用：[[0, 10], [9, 12], [11, 20]] -> [[9, 10, 11, 12]] 而不是 [[0, 10], [11, 20]] 2. 如果它有效；这将是不必要缓慢的，例如，即使对于像len(a) == 100 这样的小输入，此解决方案也需要~100**4 (~100000000) 操作。很容易使它既 O(n**2)（~10000 操作）又更具可读性（尽管我发现我的 O(n log n)（~500 操作）版本值得商榷（尤其是使用单个 @987654338 的基于 banyan 的解决方案） @) 的可读性不如上述O(n**4) 解决方案）。

【解决方案3】：

我认为您的代码中的一个问题是它无法处理一个列表包含另一个列表的情况。例如，[0,100] 包含 [9,10]。当你在 [0,100] 中循环 n 并且 n 进入 [9,10] 时，会触发条件语句 if n in range(x[i+1][0], x[i+1][1])。然后内置函数max 将比较[0, 100] 和[9, 10]，不幸的是max 将返回[9,10]，因为它比较列表中的第一个数字。因此，您删除了错误的元素。

我正在尝试另一种方法来达到您想要的效果。我没有操作列表本身，而是创建了一个新列表。如果满足我们的要求，则有条件地向其附加新元素。

def cleanup_list(lists):
    ranges = []
    for l in lists:
        to_insert = True
        for i in ranges:
            r = range(i[0],i[1])
            # if l overlaps with i, but l does not contain i
            if l[0] in r or l[1] in r:
                if (l[1]-l[0]) < len(r):
                    ranges.remove(i)
                else:
                    to_insert = False
            # l contains i
            if l[0]<i[0] and l[1]>i[1]:
                to_insert = False
        if to_insert:
            ranges.append(l)
    return ranges

【讨论】：

O(n^2) 时间复杂度。慢。
也许这个问题可以通过堆来解决。由于所有列表不重叠，它们可以用二进制堆表示，以start 和end 作为值。这应该优化 log(n) 的时间复杂度

【解决方案4】：

按长度升序对所有项目进行排序。
将它们添加到段树并忽略重叠项。

【讨论】：

那么这会是一种优化的方式吗？我会调查一下 - 谢谢！

【解决方案5】：

一般来说，两个区间是重叠的，如果：

min([upperBoundOfA, upperBoundOfB]) >= max([lowerBoundOfA, lowerBoundOfB])

如果是这种情况，这些区间的并集是：

(min([lowerBoundOfA, lowerBoundOfB]), max([upperBoundOfA, upperBoundOfB])

同样，这些区间的交集将是：

(min([upperBoundOfA, upperBoundOfB]), max([lowerBoundOfA, lowerBoundOfB]))

【讨论】：

我不认为找到交集或联合在这种特殊情况下有帮助，但这是一些非常有用的一般建议，我会牢记在心。谢谢！