CPU 如何通过 TLB 和缓存发出数据请求？答案

【问题标题】：How does CPU make data request via TLBs and caches?CPU 如何通过 TLB 和缓存发出数据请求？
【发布时间】：2014-04-29 14:53:39
【问题描述】：

我正在观察最后几个英特尔微架构（Nehalem/SB/IB 和 Haswell）。我正在尝试弄清楚发出数据请求时会发生什么（在相当简化的层面上）。到目前为止，我有一个粗略的想法：

执行引擎发出数据请求
“内存控制”查询 L1 DTLB
如果上述未命中，则现在查询 L2 TLB

此时可能会发生两件事，未命中或命中：

如果命中，CPU 会依次尝试 L1D/L2/L3 缓存、页表和主内存/硬盘？
如果未命中 - CPU 请求（集成内存控制器？）请求检查 RAM 中保存的页表（我在那里得到了正确的 IMC 角色吗？）。
李>

如果有人可以编辑/提供一组要点，这些要点提供 CPU 从执行引擎数据请求中所做的基本“概述”，包括

L1 DTLB（数据 TLB）
L2 TLB（数据+指令TLB）
L1D 缓存（数据缓存）
二级缓存（数据+指令缓存）
L3 缓存（数据 + 指令缓存）
控制对主存访问的 CPU 部分
页表

将不胜感激。我确实找到了一些有用的图片：

但它们并没有真正分离 TLB 和缓存之间的交互。

更新：按照我现在理解的认为更改了上述内容。 TLB 只是从虚拟地址获取物理地址。如果有遗漏——我们就有麻烦了，需要检查页表。如果有命中，我们只需从 L1D 缓存开始向下遍历内存层次结构。

【问题讨论】：

另见关于whether the page-walk loads to resolve a TLB miss come from cache or not 的问题（来自同一用户）。我挖了一些有趣的东西。

标签： caching cpu intel cpu-architecture tlb

【解决方案1】：

页面映射仅适用于虚拟地址到物理地址的转换。但是，由于它驻留在内存中并且仅部分缓存在 TLB 中，因此您可能必须在翻译过程中访问它。

基本流程如下：

执行计算地址（实际上一些计算，如比例和偏移量可以在内存单元中完成）。
在 DTLB 中查找
2.a.如果错过，请在第 2 级 TLB 中查找。
2.a.a.如果错过 - 开始页面浏览。
2.a.b.如果命中第 2 级 TLB，则填写 DTLB 并继续使用新的物理地址
2.b。在 DTLB 中被命中，继续物理地址
查找 L1，如果错过 - 查找 L2，如果错过再次查找 L3，如果错过 - 发送到内存控制器，等待 DRAM 访问。
当数据返回时（从任何级别），沿途填充缓存（取决于填充策略、缓存包含性和指令时间规范、内存区域类型以及可能的其他因素）。

如果需要 pagewalk，暂停主请求，并向页面映射发出物理负载（根据架构定义）。在 x86 中，它可能包括 CR3、PDPTR、PDP、PDE、PTE 等。取决于分页模式、页面大小等。请注意，在虚拟化下，VM 上的每个页面遍历级别可能需要主机上的完整页面遍历（所以你实际上是所需的步数的平方）。

请注意，页面映射基本上是一个树结构，其中每次访问都取决于前一个的值（以及您转换的虚拟地址的一部分）。因此，这些访问是相互依赖的，只有在最后一个访问完成后，您才能获得物理地址并可以返回到#3。一直以来，您想要的行可能在您不知道的情况下位于您的 L1 中（尽管老实说，如果您进行了 pagewalk，您不太可能仍然在上层缓存中保留该行）。

其他重要注意事项 - 页面地图位于物理空间中并以这种方式访问。您不想翻译翻译所需的访问权限，这可能是一个死锁 :)
更重要的是，the pagemap data can be cached，因此虽然一个简单的内存访问可能会由于 TLB 未命中而扩展到多个内存访问，但 pagewalk 可能仍然相当便宜。

【讨论】：

很好的答案！我确实检查了英特尔架构手册 1a，但它没有这个图表？？你能推荐任何资源吗？有一件事——你有 2.a.b 的“STLB”——有一段时间我认为“S”代表“静态”，然后我看着我的键盘，它在字母“D”旁边。
@user997112，对不起，错字。实际上 STLB 在这里和那里使用（S 表示二级），但它在那里是多余的，我认为没有它会更清楚。至于图表，除了these，我不知道有什么好的图表，但要更深入地了解图表，您应该阅读软件开发人员手册

【解决方案2】：

是的，正如此处的详细说明所述：

http://lwn.net/Articles/252125/

从CPU到L1到L2到L3的通道如图所示。

【讨论】：