为什么这种插入堆比插入未排序列表更快？答案

【问题标题】：why is this insertion into a heap faster than insertion into an unsorted list?为什么这种插入堆比插入未排序列表更快？
【发布时间】：2017-11-13 04:24:48
【问题描述】：

在我的堆和未排序列表中插入 100000000 个元素后，似乎堆插入实际上更快（12 秒对 20 秒）。为什么是这样？我相信堆插入是O(logn)，而未排序的列表插入是O(1)。我还注意到我的堆插入实现实际上并没有随着输入的数量而扩展。这也让我感到困惑。

这是我运行的代码：

int main ()
{
    clock_t unsortedStart;
    clock_t heapStart;

    double unsortedDuration;
    double heapDuration;

    int num_pushes = 100000000;
    int interval = 10000;

    ofstream unsorted ("unsorted.txt");
    ofstream heap ("heap.txt");

    UnsortedPQ<int> unsortedPQ; 
    HeapPQ<int> heapPQ; 

    unsortedStart = clock();

    for (int i = 0; i < num_pushes; ++i)
    {
        if (i % interval == 0) {
            unsortedDuration = ( clock() - unsortedStart ) / (double) CLOCKS_PER_SEC;
            unsorted << unsortedDuration << " " << i << endl;
        }

        unsortedPQ.insertItem(rand() % 100);
    }

    heapStart = clock();
    for (int i = 0; i < num_pushes; ++i)
    {
        if (i % interval == 0) {
            heapDuration = ( clock() - heapStart ) / (double) CLOCKS_PER_SEC;
            heap << heapDuration << " " << i << endl;
        }
        heapPQ.insertItem(rand() % 100);
    }
    return 0;
}

这是插入的堆实现（使用std::vector）：

template <class T>
void HeapPQ<T>::insertItem(T data) { 
    //insert into back of heap (std::vector)
    dataArray.push_back(data);
    int i = dataArray.size() - 1;

    //sifts the inserted element up
    while (i != 0 && dataArray[(i - 1) / 2] > dataArray[i]) {
        swap(dataArray[i], dataArray[(i - 1) / 2]);
        i = (i - 1) / 2;
    }
}

这是插入的未排序列表实现（使用std::list）：

//pushes element to the back of a std::list
template <class T>
void UnsortedPQ<T>::insertItem(T data) { dataList.push_back(data); }

【问题讨论】：

向量使用一个连续的内存块。现代硬件非常非常擅长访问和扫描连续的 RAM 块。
您是否在可以并行化/具有多个内核的东西上运行它？如果是这种情况，那么操作系统级别可能会通过将所有内容视为连续的内存块来优化它。
@OmegaNalphA 是的，我的机器有多个内核。但无论如何，随着元素数量的增加，堆插入应该花费更长的时间，但这似乎不会发生。
永远不要低估如果条件不利，在 O(1) 中执行单次迭代需要多长时间。
区别可能在于分配的数量：std::list 可能在每个 push_back 上进行分配 std::vector 仅使用对数数量的分配（或者可能是单个一，正确初始化时）。还要避免昂贵的计时操作：不要在每次 1000 插入时写入文件，而是将原始计时存储在预先分配的数组中，并在运行后处理该数组 - 同时预热缓存！要明白我的意思：尝试颠倒unordered 和heap 的顺序，你可能会得到不同的结果。

标签： c++ list data-structures heap

【解决方案1】：

堆中的插入是O(logn)，这意味着每次插入最多可能需要O(logn) 步骤。这并不意味着它必须这样做。

在您的示例中，插入元素的平均成本为O(1)。为什么？

为简单起见，假设您仅以随机顺序插入 0a 和 1s（在您当前的版本中，仅插入数字 0..99 (rand() % 100) - 计算更复杂，但行为保持不变）。插入2*n元素后，堆中大约有n0s和n1s，堆如下所示：

                                 0
                                0 0
                               00 00
                          ...............
                         0 0 0  0  0  0  0
                       11 11 11 11 11 11 11

所以基本上，1s 都在最后一级 k 和 0s 都在最后一级 0..k-1。

如果插入1，则无事可做（上面没有2s）。
如果插入0，则最多有一个交换（1s 可能在最后一级的上一级，但在上一级）。

平均而言，我们只需要 0.5 交换而不需要 k。

具有相同的渐近运行时间，这完全取决于插入向量和列表的（摊销）成本。该列表似乎更慢（我的假设是，对于每个插入，它需要通过new 在堆上分配一个元素，这是一个相当缓慢的操作。成本取决于其他因素，例如插入的大小对象，因此可能会有所不同，哪个更快）。

让我们仔细看看您的案例，其中数字是由统一分布[0..99] 生成的。在n>>100 插入之后，我们将遇到以下情况（涉及一些挥手，但要点应该清楚）：

堆的最后一层（k-th）有n/2元素，由数字50..99组成。因此，对于 50% 的可能数字（即50..99），不需要移位。
堆的倒数第二级 (k-1-th) 具有 n/4 元素，由数字 25..49 组成。这意味着 25% 的可能数字恰好需要 1 个班次。
级别k-2 具有n/8 元素并由数字13..24 组成。
log 100/log 2 以上的关卡里面只有0s。所以可能的最大移位数是m=log 100/log 2，独立于n - 堆中的元素数。

因此，插入的最坏情况成本为log 100/log 2，平均成本更小：

E(insertion)=0*1/2+1*1/4+2*1/8+...<=1.0

即平均而言，我们每次插入的班次少于 1 次。

注意：这并不意味着在堆中插入的摊销成本为O(1) - 如果您不按随机顺序插入数字，而是首先插入99s，然后是98s，.. .，然后0s 每次插入的费用为O(log n)。

【讨论】：

所以你说我的大部分插入只花费固定时间或很少交换？我仍然不明白这是怎么回事，因为 0 到 99 之间的随机数很有可能筛选出堆的很大一部分，从而进行大量插入 O(logn) 不是吗？我可以理解为什么它不会在你的情况下，因为你只考虑 1 和 0，但如果有 100 种可能性，应该有更多的交换。
我试图让我的答案更明确地说明范围 0..100。您始终可以选择计算实验中的班次次数，以查看平均成本是否为O(1)。
很好的答案！顺便说一句，维基百科同意二进制堆具有 O(log n) 插入。虽然大 O 表示法被程序员大量滥用，但文章明确指出，这表示一个上限（与“紧界”大 theta 表示法相反），即最坏的情况。见en.wikipedia.org/wiki/…