【问题标题】:Exceptions, move semantics and optimizations: at compiler's mercy (MSVC2010)?异常、移动语义和优化:任由编译器摆布(MSVC2010)?
【发布时间】:2012-01-29 00:22:43
【问题描述】:

在对我的旧异常类层次结构进行一些升级以利用某些 C++11 功能时,我进行了一些速度测试,结果有些令人沮丧。这一切都是用x64bit MSVC++2010编译器完成的,最大速度优化/O2。

两个非常简单的struct,都是按位复制语义。一个没有移动赋值运算符(为什么需要一个?),另一个 - 有。两个简单的内联函数按值返回这些 structs 的新创建实例,这些实例被分配给局部变量。另外,请注意try/catch 周围的阻塞。代码如下:

#include <iostream>
#include <windows.h>

struct TFoo
{
  unsigned long long int m0;
  unsigned long long int m1;

  TFoo( unsigned long long int f ) : m0( f ), m1( f / 2 ) {}
};

struct TBar
{
  unsigned long long int m0;
  unsigned long long int m1;

  TBar( unsigned long long int f ) : m0( f ), m1( f / 2 ) {}
  TBar & operator=( TBar && f )
  {
   m0 = f.m0;
   m1 = f.m1;
   f.m0 = f.m1 = 0;

   return ( *this );
  }
};

TFoo MakeFoo( unsigned long long int f )
{
 return ( TFoo( f ) );
}

TBar MakeBar( unsigned long long int f )
{
 return ( TBar( f ) );
}

int main( void )
{
 try
 {
  unsigned long long int lMin = 0;
  unsigned long long int lMax = 20000000;
  LARGE_INTEGER lStart = { 0 };
  LARGE_INTEGER lEnd = { 0 };
  TFoo lFoo( 0 );
  TBar lBar( 0 );

  ::QueryPerformanceCounter( &lStart );
  for( auto i = lMin; i < lMax; i++ )
  {
   lFoo = MakeFoo( i );
  }
  ::QueryPerformanceCounter( &lEnd );
  std::cout << "lFoo = ( " << lFoo.m0 << " , " << lFoo.m1 << " )\t\tMakeFoo count : " << lEnd.QuadPart - lStart.QuadPart << std::endl;

  ::QueryPerformanceCounter( &lStart );
  for( auto i = lMin; i < lMax; i++ )
  {
   lBar = MakeBar( i );
  }
  ::QueryPerformanceCounter( &lEnd );
  std::cout << "lBar = ( " << lBar.m0 << " , " << lBar.m1 << " )\t\tMakeBar count : " << lEnd.QuadPart - lStart.QuadPart << std::endl;
 }
 catch( ... ){}

 return ( 0 );
}

程序输出:

lFoo = ( 19999999 , 9999999 )       MakeFoo count : 428652
lBar = ( 19999999 , 9999999 )       MakeBar count : 74518

两个循环的汇编器(显示周围的计数器调用):

//- MakeFoo loop START --------------------------------
00000001`3f4388aa 488d4810        lea     rcx,[rax+10h]
00000001`3f4388ae ff1594db0400    call    qword ptr [Prototype_Console!_imp_QueryPerformanceCounter (00000001`3f486448)]

00000001`3f4388b4 448bdf          mov     r11d,edi
00000001`3f4388b7 48897c2428      mov     qword ptr [rsp+28h],rdi
00000001`3f4388bc 0f1f4000        nop     dword ptr [rax]
00000001`3f4388c0 4981fb002d3101  cmp     r11,1312D00h
00000001`3f4388c7 732a            jae     Prototype_Console!main+0x83 (00000001`3f4388f3)
00000001`3f4388c9 4c895c2450      mov     qword ptr [rsp+50h],r11
00000001`3f4388ce 498bc3          mov     rax,r11
00000001`3f4388d1 48d1e8          shr     rax,1
00000001`3f4388d4 4889442458      mov     qword ptr [rsp+58h],rax       // these 3 lines
00000001`3f4388d9 0f28442450      movaps  xmm0,xmmword ptr [rsp+50h]    // are of interest 
00000001`3f4388de 660f7f442430    movdqa  xmmword ptr [rsp+30h],xmm0    // see MakeBar
00000001`3f4388e4 49ffc3          inc     r11
00000001`3f4388e7 4c895c2428      mov     qword ptr [rsp+28h],r11        
00000001`3f4388ec 4c8b6c2438      mov     r13,qword ptr [rsp+38h]       // this one too
00000001`3f4388f1 ebcd            jmp     Prototype_Console!main+0x50 (00000001`3f4388c0)

00000001`3f4388f3 488d8c24c0000000 lea     rcx,[rsp+0C0h]
00000001`3f4388fb ff1547db0400    call    qword ptr [Prototype_Console!_imp_QueryPerformanceCounter (00000001`3f486448)]
//- MakeFoo loop END --------------------------------

//- MakeBar loop START --------------------------------
00000001`3f4389d1 488d8c24c8000000 lea     rcx,[rsp+0C8h]
00000001`3f4389d9 ff1569da0400    call    qword ptr [Prototype_Console!_imp_QueryPerformanceCounter (00000001`3f486448)]

00000001`3f4389df 4c8bdf          mov     r11,rdi
00000001`3f4389e2 48897c2440      mov     qword ptr [rsp+40h],rdi
00000001`3f4389e7 4981fb002d3101  cmp     r11,1312D00h
00000001`3f4389ee 7322            jae     Prototype_Console!main+0x1a2 (00000001`3f438a12)
00000001`3f4389f0 4c895c2478      mov     qword ptr [rsp+78h],r11
00000001`3f4389f5 498bf3          mov     rsi,r11
00000001`3f4389f8 48d1ee          shr     rsi,1
00000001`3f4389fb 4d8be3          mov     r12,r11                     // these 3 lines
00000001`3f4389fe 4c895c2468      mov     qword ptr [rsp+68h],r11     // are of interest
00000001`3f438a03 48897c2478      mov     qword ptr [rsp+78h],rdi     // see MakeFoo
00000001`3f438a08 49ffc3          inc     r11
00000001`3f438a0b 4c895c2440      mov     qword ptr [rsp+40h],r11
00000001`3f438a10 ebd5            jmp     Prototype_Console!main+0x177 (00000001`3f4389e7)

00000001`3f438a12 488d8c24c0000000 lea     rcx,[rsp+0C0h]
00000001`3f438a1a ff1528da0400    call    qword ptr [Prototype_Console!_imp_QueryPerformanceCounter (00000001`3f486448)]
//- MakeBar loop END --------------------------------

如果我删除 try/catch 块,这两个时间都是相同的。但是在它存在的情况下,编译器显然会为 struct 优化代码,并使用冗余的 move operator=。此外,MakeFoo 的时间确实取决于TFoo 的大小及其布局,但总的来说,时间比MakeBar 的时间要差几个,因为MakeBar 的时间不依赖于小的大小变化。

问题

  1. 它是 MSVC++2010 的编译器特定功能(有人可以检查 GCC 吗?)?

  2. 是不是因为编译器必须在调用完成之前保留临时性,在MakeFoo 的情况下它不能“撕开”,而在MakeBar 的情况下它知道我们允许它使用移动语义它会“撕开”,生成更快的代码?

  3. 如果没有try\catch 块,我是否可以期望类似的事情有相同的行为,但在更复杂的情况下?

【问题讨论】:

标签: c++ exception optimization compiler-construction move-semantics


【解决方案1】:

您的测试有缺陷。当使用/O2 /EHsc 编译时,它会在几分之一秒内完成,并且测试结果存在很大的可变性。

我重试了相同的测试,但运行了 100 倍的迭代次数,结果如下(多次运行测试的结果相似):

lFoo = ( 1999999999 , 999999999 )               MakeFoo count : 16584927
lBar = ( 1999999999 , 999999999 )               MakeBar count : 16613002

您的测试没有显示两种类型的分配性能有任何差异。

【讨论】:

  • 我高度怀疑,您的代码周围没有try\catch 块。因为时间相同,并且在没有try\catch 的情况下,这两个函数都运行得非常快。该行为仅在存在try\catch 时才会表现出来......另外,你的编译器位数是多少,你能告诉我你的汇编程序吗?.. 并且,对不起,你所说的“你的测试有缺陷”是什么意思?我编造了汇编指令吗?我的编译器版本是Microsoft (R) C/C++ Optimizing Compiler Version 16.00.30319.01 for x64
  • 我从您的问题中复制了确切的代码。除了更改迭代次数外,我没有对其进行任何修改。您的测试存在缺陷,因为它运行的迭代次数太少,导致测试结果的高度可变性。您应该升级到 SP1 编译器(您从 2010 年初开始使用 RTM 编译器;SP1 编译器的版本为 10.00.40219.01)。我的测试是使用 SP1 编译器;对于为 x86 和 x64 编译的两个测试,我得到了相似的结果。如果将迭代次数增加 100 倍,您是否仍然看到差异?
  • 另外,我使用/EHa,但按照您的建议使用/EHsc 并不会改变任何事情。至少,不是我拥有的编译器......你的计数器频率是多少?我的是2591279。所以这个测试确实需要一些时间来运行。我会增加 100 倍,怀疑它会改变什么。
  • 好吧,我运行它的时间长了 100 倍,计数是相同的,除了大 100 倍:428081937443621... 我认为,您对 SP1 编译器的建议可能是有效的,它可能是编译器版本。这就是你在说的:MS VC++ 2010 SP1
  • 我已将编译器更新为Microsoft (R) C/C++ Optimizing Compiler Version 16.00.40219.01 for x64。结果没有改变。我正在使用nmake 从命令行运行Windows SDK 7.1 编译器(现在是SP1)。任何其他信息会有用吗?可以请您展示您的汇编程序吗?.. 我对cl.exe 的编译标志是:/nologo /c /EHa /W4 /WL /Zi /FAcs /O2
猜你喜欢
  • 2012-07-05
  • 2011-06-11
  • 2012-09-06
  • 2013-10-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多