【发布时间】:2015-01-14 17:28:48
【问题描述】:
如果我内联一个函数。 将复制函数调用主体,而不是对其发出 call()。 为什么会导致性能不佳?
编辑:那么由于大功能而导致缓存未命中怎么办? 那么为什么存在“只有最多 3 行的内联函数”的经验法则呢?
【问题讨论】:
-
如果内联很多函数,可能会导致目标代码过大。但不确定何时会影响性能。
-
嘘,咝咝作响:在已有答案后向问题添加更多子问题。
如果我内联一个函数。 将复制函数调用主体,而不是对其发出 call()。 为什么会导致性能不佳?
编辑:那么由于大功能而导致缓存未命中怎么办? 那么为什么存在“只有最多 3 行的内联函数”的经验法则呢?
【问题讨论】:
可能存在内联函数会增加程序大小或移动程序位的边缘情况,从而导致缓存未命中发生在以前没有发生的地方。这并不常见,因为缓存旨在处理最常见的情况,并且与大多数热点相比非常大。
【讨论】:
在现代 C++ 编译器中没有强制内联函数的标准方法,所以这是一个有争议的问题。但是,假设您使用编译器特定的功能来强制内联(并且编译器不会忽略它),它不会导致性能下降,但会导致可执行文件大小增加,因为有更多相同代码的副本。
编辑:根据下面的评论,应该提到确实存在极不可能的极端情况,您的代码可能会在附近执行相同内联函数的不同副本,从而降低指令缓存的效率。这会显着影响性能的可能性极小,但在某些极端情况下可能会。
【讨论】:
__forceinline
__forceinline 关键字("You cannot force the compiler to inline a particular function, even with the __forceinline keyword")。
我们应该退后一步,尝试解释 CPU 的工作原理。通常它们有不同的缓存,一个用于代码,它告诉 CPU 需要执行的指令,另一个用于数据,用于应用操作。
数据缓存未命中是“容易”解决的,尽量使用最小的数据结构,将你更频繁访问的成员放在一起......
指令缓存未命中更难理解和解决,这也是人们普遍认为 C++ 中的多态行为比正常函数调用慢的原因。基本上,CPU 将在其缓存中预取存储在您尝试执行的执行点附近的指令,如果所有内容都是内联的,则只有更多数据并且无法预取所有内容,从而导致缓存未命中.请注意,这只是一个简单的案例,根据我的经验,我遇到了模板实例化的问题,这些问题会生成大量代码,导致性能比仅具有简单的虚拟调用和不太深的对象层次结构更慢。
正如 Alexandrescu 一直指出的那样,您应该始终为代码计时
【讨论】: