【问题标题】:how are barriers/fences and acquire, release semantics implemented microarchitecturally?屏障/栅栏和获取、释放语义是如何在微架构上实现的?
【发布时间】:2020-01-23 23:53:11
【问题描述】:

很多问题SO和文章/书籍如https://mirrors.edge.kernel.org/pub/linux/kernel/people/paulmck/perfbook/perfbook.2018.12.08a.pdf,Preshing的文章如https://preshing.com/20120710/memory-barriers-are-like-source-control-operations/和他的整个系列文章,抽象地谈论内存排序,就不同障碍提供的排序和可见性保证而言类型。我的问题是这些障碍和内存排序语义是如何在 x86 和 ARM 微架构上实现的?

对于存储-存储屏障,似乎在 x86 上,存储缓冲区维护存储的程序顺序并将它们提交到 L1D(从而使它们以相同的顺序全局可见)。如果存储缓冲区未排序,即不按程序顺序维护它们,存储存储屏障是如何实现的?它只是以这样一种方式“标记”存储缓冲区,即在屏障提交之前存储到缓存相干域之前存储之后?还是内存屏障实际上会刷新存储缓冲区并停止所有指令,直到刷新完成?可以双向实现吗?

对于加载-加载障碍,如何防止加载-加载重新排序?很难相信 x86 会按顺序执行所有加载!我假设负载可以无序执行,但按顺序提交/退出。如果是这样,如果一个 cpu 对 2 个不同的位置执行 2 次加载,那么一次加载如何确保它从 T100 获得一个值,而下一次加载是在 T100 上或之后获得的?如果第一次加载在缓存中未命中并正在等待数据,而第二次加载命中并获取其值怎么办?当 load 1 获得它的值时,它如何确保它获得的值不是来自加载 2 的 value 的新商店?如果加载可以乱序执行,如何检测到违反内存顺序的情况?

类似地,加载-存储屏障(隐含在 x86 的所有加载中)是如何实现的,以及存储-加载屏障(例如 mfence)是如何实现的?即 dmb ld/st 和 just dmb 指令在 ARM 上做了什么微架构,每次加载和每次存储都做了什么,mfence 指令在 x86 上做微架构以确保内存排序?

【问题讨论】:

  • 这是关于内存操作的 Q,还是关于普通内存中的普通 C 对象的问题,即对总是在缓存中结束的地址的操作?

标签: x86 x86-64 cpu-architecture memory-barriers micro-architecture


【解决方案1】:

其他问答(尤其是后来的C++ How is release-and-acquire achieved on x86 only using MOV?)已经涵盖了大部分内容,但我将在此进行总结。不过,好问题,将所有这些都收集在一个地方很有用。


在 x86 上,每个 asm 加载都是一个获取加载。为了有效地实现这一点,现代 x86 硬件会比允许的更早进行推测加载,然后检查该推测。 (可能导致内存顺序错误推测管道核弹。)为了跟踪这一点,英特尔将加载和存储缓冲区的组合称为“内存顺序缓冲区”。

弱序 ISA 不必推测,它们可以按任意顺序加载。


x86 存储排序是通过仅让存储按程序顺序从存储缓冲区提交到 L1d 来维护的。

至少在 Intel CPU 上,存储缓冲区条目在发布时(从前端到 ROB + RS)分配用于存储。所有微指令都需要为它们分配一个 ROB 条目,但一些微指令还需要分配其他资源,例如加载或存储缓冲区条目、它们读/写的寄存器的 RAT 条目等等。

所以我认为存储缓冲区本身有序的。当存储地址或存储数据微指令执行时,它只是将地址或数据写入其已分配的存储缓冲区条目。由于提交(释放 SB 条目)和分配都是按程序顺序进行的,因此我假设它在物理上是一个带有头部和尾部的循环缓冲区,就像 ROB 一样。 (与 RS 不同)。


避免 LoadStore 基本上是免费的:负载在执行之前不能退出(从缓存中获取数据)。商店只有在 退休后才能提交。按顺序退休自动意味着所有先前的加载都在存储“毕业”并准备好提交之前完成。

在实践中可以进行加载存储重新排序的弱排序 uarch 可能会记分板加载以及在 ROB 中跟踪它们:一旦知道它们没有故障,让它们退休,但即使数据没有t到了。

这似乎更有可能在有序内核上,但在 IDK 上。所以你可能有一个已经退休的负载,但如果在数据实际到达之前有任何东西试图读取它,那么寄存器目的地仍然会停止。我们知道,有序内核在实践中就是以这种方式工作的,不需要在后面的指令执行之前完成加载。 (这就是为什么使用大量寄存器的软件流水线在此类内核上如此有价值,例如实现 memcpy。立即在有序内核上读取加载结果会破坏内存并行性。)

How is load->store reordering possible with in-order commit? 更深入地探讨了有序与无序。


障碍说明

对常规存储执行任何操作的唯一屏障指令是mfence,它实际上会暂停内存操作(或整个管道),直到存储缓冲区耗尽。 Are loads and stores the only instructions that gets reordered? 也涵盖了类似于 lfence 的 Skylake-with-updated-microcode 行为。

lfence 主要存在于阻止后续指令甚至发出直到所有先前指令都离开无序后端(退休)的微架构效应。 lfence 用于内存排序的用例几乎不存在。

相关:

【讨论】:

  • 谢谢 Peter.1) 您能否详细说明负载获取部分的“检查推测”?
  • @Raghu:查找可能导致内存顺序错误推测的内容。我认为这涉及到注意缓存行是否在加载执行和加载退休之间失效,可能是通过监听 LFB 活动并标记该加载缓冲区。这很随意。如果我知道更具体的东西,我会把它放在答案中。
  • @Raghu:是的,我想是的。就像我说的那样,在检查它们没有故障后,记分板加载的有序核心很容易。 (即肯定会发生,类似于位于存储缓冲区中等待提交的退役存储)。只要没有指令尝试读取目标寄存器,加载就可以在等待高速缓存未命中时任意延迟。 x86 具有强排序的内存模型(并且需要加载加载排序),因此没有 x86 会尝试这样做,但弱排序的内核可能会被设计为这样做。甚至可能还有 OoO。我必须用谷歌搜索真实的例子。
  • @Raghu:是的,就像大多数智能手机中的 ARM Cortex-A53 一样:性能良好但性能相当高。不过,这样的核心仍然会有分支预测以避免获取气泡!指令开始按顺序执行,但一旦知道它们不会出错,就可以无序完成。但是是的,没有推测性的执行,只有推测性的获取/解码。没有 ROB,只是一个超标量管道。
  • @pveentjer:取决于微架构。在带有微码更新的 Skylake 上,mfence 包含类似lfence 的行为,因此它会暂停前端直到存储缓冲区耗尽。 (Are loads and stores the only instructions that gets reordered?)。但是locked 指令和其他一些uarches 上的mfence 只会延迟加载的执行。我还没有测试过xchg [mem], reg ; load ; unrelated ALU 是否让独立的 ALU 指令在存储缓冲区耗尽之前执行,但我希望如此,使用 MOB(内存顺序 buf)跟踪顺序。
猜你喜欢
  • 1970-01-01
  • 2020-01-20
  • 2016-08-17
  • 2021-03-19
  • 1970-01-01
  • 1970-01-01
  • 2022-09-23
  • 2020-06-04
  • 1970-01-01
相关资源
最近更新 更多