【发布时间】:2020-09-02 17:04:02
【问题描述】:
我有一段简单的代码:
#pragma GCC optimize ("O0")
#include <unordered_map>
int main()
{
std::unordered_map<int, int> map;
static constexpr const int MaxN = 2e6 + 69;
map.reserve(MaxN);
int t = 1000;
while (t--)
{
map.clear();
}
return 0;
}
这段代码所做的只是创建一个巨大的std::unordered_map,在堆上保留大量内存,同时保持它为空,并清除它1000次。令我惊讶的是,执行这个程序需要一秒钟多的时间。
根据cppreference,std::unordered_map::clear在元素数中是线性的,即0,而不是桶数。因此,这个函数在我的程序中应该什么都不做,并且应该花费不到一毫秒。
为了进一步分析代码,我写了这个:
#pragma GCC optimize ("O0")
#include <chrono>
#include <iostream>
#include <unordered_map>
#include <map>
template <typename T>
struct verbose_pointer
{
using element_type = T;
T* value = nullptr;
static std::map<T*, std::size_t> accessTimes;
// T & operator[](std::size_t n)
// {
// ++(*count);
// return value[n];
// }
T * operator ->() const
{
++accessTimes[value];
return value;
}
// T & operator *() const
// {
// ++(*count);
// return *value;
// }
static void operator delete(void * ptr)
{
T * toErase = (static_cast<verbose_pointer *>(ptr))->value;
std::cerr << "Deleted " << toErase << std::endl;
std::cerr << "Address " << toErase << " accessed " << accessTimes[toErase] << " times." << std::endl;
accessTimes.erase(toErase);
::operator delete(toErase);
}
verbose_pointer(void* ptr) : value(static_cast <T*>(ptr))
{
std::cerr << "I'm constructed from pointer: " << ptr << std::endl;
}
static verbose_pointer pointer_to(T & t) { return verbose_pointer(&t); }
~verbose_pointer()
{
}
};
template <typename T>
std::map<T*, std::size_t> verbose_pointer<T>::accessTimes;
template <typename T>
class verbose_allocator
{
public:
using value_type = T;
using pointer = verbose_pointer<T>;
constexpr verbose_allocator() noexcept = default;
constexpr verbose_allocator(const verbose_allocator & other) noexcept = default;
template <typename U>
constexpr verbose_allocator(const verbose_allocator<U> & other) noexcept {}
pointer allocate(std::size_t n)
{
std::cout << (n * sizeof(T)) << " bytes allocated." << std::endl;
return static_cast<pointer>(::operator new(n * sizeof(T)));
}
void deallocate(pointer p, std::size_t n)
{
std::cout << (n * sizeof(T)) << " bytes deallocated." << std::endl;
pointer::operator delete(&p);
}
};
int main()
{
std::unordered_map<int, int, std::hash<int>, std::equal_to<int>, verbose_allocator<std::pair<const int, int>>>
verbose_map;
static constexpr const int MaxN = 2e6 + 69;
verbose_map.reserve(MaxN);
auto start = std::chrono::high_resolution_clock::now();
int t = 1000;
while (t--)
{
verbose_map.clear();
}
auto end = std::chrono::high_resolution_clock::now();
auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start);
std::cout << "1000 clear() runs take " << duration.count() << " milliseconds." << std::endl;
return 0;
}
我的代码的输出是:
8579908 bytes allocated.
I'm constructed from pointer: 0xd09020
1000 clear() runs take 1139 milliseconds.
I'm constructed from pointer: 0xd09020
8579908 bytes deallocated.
Deleted 0xd09020
Address 0xd09020 accessed 1 times.
似乎在reserve() 语句中分配了一次巨大的内存块,并在映射超出范围时释放了一次,就像我预期的那样。而且,指针只被访问一次。
那么为什么 1000 次 std::unordered_map::clear() 操作需要这么多时间呢? GCC 的实现在这里做了什么?
【问题讨论】:
-
请说明您如何测量各种操作所花费的时间——我在显示的代码中看不到任何内容。另请注意,衡量未优化代码的性能在很大程度上是没有意义的。删除
#pragma GCC optimize ("O0")指令。 -
我想
reserve可能会占用大部分时间。 -
在禁用优化的情况下,您无法可靠地分析任何内容...
-
您是在测试优化的构建还是未优化的调试构建?未优化的构建(大多数编译器的默认值)只关心生成易于调试的代码,而性能是次要的,调试构建非常缓慢,并且执行许多优化器通常只是删除的事情。如果您想知道您的代码将/可以在现实世界中如何执行,请始终测试优化的构建。为未优化的调试构建计时是浪费时间。 "#pragma GCC optimize ("O0")" 似乎指向了一种奇怪的、非标准的方式来确保非最优的未优化构建。
标签: c++ std unordered-map