【发布时间】:2021-01-19 23:57:52
【问题描述】:
我的用例如下:
- 我需要获取一组生长元素中的最小值;我只需要任何迭代的最小值
- 我将更新最小值,之后保证不再是最小值,但它在订单中的新位置通常不能直接计算。
- 我将这个新值推回集合中,然后进入下一个迭代,在其中查看新的 min 元素。
现在我正在以下列方式使用 std::vector 和 std::pop_heap std::push_heap 。我在我的向量上调用 std::pop_heap ,它将最小元素推到向量的后面,我得到一个对最后一个元素的引用并更新它,然后我调用 std::push_heap 它将最后一个元素移动到它的新位置.所以我不必将结构从 std::vector 中复制出来来更新它。有问题的结构是 16 字节,可简单构造,它非常基本,完全由整数类型组成。
根据我的分析器和一系列问题大小,我看到的是,我在 std::pop_heap 中花费了超过 75% 的 cpu 时间,在 std::push_heap 中花费了 ~10%。现在,在每个被检查的最小元素上执行的逻辑非常简单,主要包括添加和与固定输入的一些比较,所以我认为这可能是最好的。但是,如果有一个不同的或随机的奇怪数据结构可能比我目前使用的 min_heap 更快,那么尝试一下会很有趣。
我已经尝试过 std::min_element、std::nth_element、std::sort ,对于 1,000,000 或更少的问题大小,我当前的解决时间不到 1 秒,并且运行时间增加了幅度(许多 10 秒)。考虑到它们的复杂性都比 std::push_heap 和 std::pop_heap 更糟糕,我会这样认为。
我也尝试过使用 std::map 和 std::set 等树结构,但这些也会降低性能(我现在手头没有数字)。
那么对于这个用例,有没有人知道比 min_heap 更好的东西?
(很遗憾我无法提供源代码,但考虑到 85% 的 cpu 时间都花在了 pop_heap/push_heap 上,我不认为它会超级有用)
编辑:比较运算符是两个整数类型之间的单个比较。所以它不像堆中使用的比较运算符正在做大量的工作。
【问题讨论】:
-
当你更新最小值时,它的新位置通常是更靠近根还是更靠近堆的“末端”?
-
你有没有试过不包含被删除元素但存储所有被删除元素的最小值并在最小值较小时再次插入的排序向量?
-
您的代码每次迭代调用
push_heap()和pop_heap()多少次?理想情况下,它只是每个迭代中的一个(当您将最小值从堆中弹出,更新它,然后将其推回),加上一个push_heap()调用,用于您碰巧推入的每个新项目同时设置元素集。如果不止于此,请检查以确保您没有做一些低效的事情(例如在每次迭代时清除堆并从头开始重新填充它) -
@harold 通常更接近最小值而不是最大值,但这对于任何给定的迭代都不能保证。
-
@henk 元素没有被删除它们被修改并推回,最小元素的值在算法的生命周期内缓慢增长
标签: c++ performance data-structures