【发布时间】:2015-07-16 03:53:37
【问题描述】:
我正在尝试使用 haswell 中的 tsx 扩展,通过调整现有的中型(1000 行)代码库以使用 GCC 事务内存扩展(在这台机器中间接使用 haswell tsx)而不是粗粒度锁。我正在使用 GCC 的 transactional_memory 扩展,而不是直接编写我自己的 _xbegin / _xend。我正在使用 ITM_DEFAULT_METHOD=htm
我在让它工作得足够快时遇到了问题,因为我因神秘原因导致硬件事务中止率很高。如下所示,这些中止不是由于冲突,也不是由于容量限制。
这是我用来量化失败率和根本原因的 perf 命令:
perf stat \
-e cpu/event=0x54,umask=0x2,name=tx_mem_abort_capacity_write/ \
-e cpu/event=0x54,umask=0x1,name=tx_mem_abort_conflict/ \
-e cpu/event=0x5d,umask=0x1,name=tx_exec_misc1/ \
-e cpu/event=0x5d,umask=0x2,name=tx_exec_misc2/ \
-e cpu/event=0x5d,umask=0x4,name=tx_exec_misc3/ \
-e cpu/event=0x5d,umask=0x8,name=tx_exec_misc4/ \
-e cpu/event=0x5d,umask=0x10,name=tx_exec_misc5/ \
-e cpu/event=0xc9,umask=0x1,name=rtm_retired_start/ \
-e cpu/event=0xc9,umask=0x2,name=rtm_retired_commit/ \
-e cpu/event=0xc9,umask=0x4,name=rtm_retired_aborted/pp \
-e cpu/event=0xc9,umask=0x8,name=rtm_retired_aborted_misc1/ \
-e cpu/event=0xc9,umask=0x10,name=rtm_retired_aborted_misc2/ \
-e cpu/event=0xc9,umask=0x20,name=rtm_retired_aborted_misc3/ \
-e cpu/event=0xc9,umask=0x40,name=rtm_retired_aborted_misc4/ \
-e cpu/event=0xc9,umask=0x80,name=rtm_retired_aborted_misc5/ \
./myprogram -th 1 -reps 3000000
因此,该程序运行了一些包含事务的代码 3000 万次。每个请求涉及一个事务 gcc __transaction_atomic 块。这次运行只有一个线程。
这个特定的perf 命令捕获了Intel software developers manual vol 3 中描述的大部分相关的tsx 性能事件。
perf stat 的输出如下:
0 tx_mem_abort_capacity_write [26.66%]
0 tx_mem_abort_conflict [26.65%]
29,937,894 tx_exec_misc1 [26.71%]
0 tx_exec_misc2 [26.74%]
0 tx_exec_misc3 [26.80%]
0 tx_exec_misc4 [26.92%]
0 tx_exec_misc5 [26.83%]
29,906,632 rtm_retired_start [26.79%]
0 rtm_retired_commit [26.70%]
29,985,423 rtm_retired_aborted [26.66%]
0 rtm_retired_aborted_misc1 [26.75%]
0 rtm_retired_aborted_misc2 [26.73%]
29,927,923 rtm_retired_aborted_misc3 [26.71%]
0 rtm_retired_aborted_misc4 [26.69%]
176 rtm_retired_aborted_misc5 [26.67%]
10.583607595 seconds time elapsed
从输出中可以看出:
-
rtm_retired_start计数为 3000 万(匹配程序的输入) -
rtm_retired_abort计数大致相同(根本没有提交) -
abort_conflict和abort_capacity计数为 0,因此这些不是原因。另外,请记住它只有一个线程在运行,冲突应该很少见。 - 这里唯一的实际线索是
tx_exec_misc1和rtm_retired_aborted_misc3的高值,它们在描述上有些相似。
英特尔手册(第 3 卷)定义了 rtm_retired_aborted_misc3 计数器:
代码:C9H 20H
助记符:RTM_RETIRED.ABORTED_MISC3
描述:RTM 执行因 HLE 不友好指令而中止的次数。
tx_exec_misc1 的定义有一些相似的词:
代码:5DH 01H
助记符:TX_EXEC.MISC1
描述:计算可能导致事务中止的一类指令的执行次数。由于这是执行计数,它可能并不总是导致事务中止。
我使用对rtm_retired_aborted 的高精度 (PEBS) 支持使用性能记录/性能报告检查了中止的装配位置。该位置具有从寄存器到寄存器的mov 指令。附近没有看到奇怪的指令名称。
更新:
从那时起,我尝试了以下两件事:
1) 我们在这里看到的 tx_exec_misc1 和 rtm_retired_aborted_misc3 签名可以得到,例如通过一个 dummy block 的形式
for (int i = 0; i < 10000000; i++){
__transaction_atomic{
_xabort(1);
}
}
或其中一种形式
for (int i = 0; i < 10000000; i++){
__transaction_atomic{
printf("hello");
fflush(stdout);
}
}
在这两种情况下,性能计数器看起来都与我看到的相似。但是,在这两种情况下,-e cpu/tx-abort/ 的 perf report 都指向直观正确的装配线:第一个示例的 xabort 指令和第二个示例的 syscall 指令。在实际代码库中,性能报告指向函数开始时的堆栈推送:
: 00000000004167e0 <myns::myfun()>:
100.00 : 4167e0: push %rbp
0.00 : 4167e1: mov %rsp,%rbp
0.00 : 4167e4: push %r15
我也在英特尔软件开发模拟器下运行了相同的命令。事实证明,在这种情况下问题就消失了:就应用程序而言,我没有中止。
【问题讨论】:
-
你能发布你的事务循环吗?
-
嗨,马修。不幸的是,它是一个有点大的循环(跨越多个函数调用,一些函数在文本上很大,尽管实际的执行路径不需要)。
-
您是否可以开始减少循环以查看是什么触发了这种情况?这听起来像是某个地方的意外系统调用......虽然你的性能结果看起来有点奇怪。
-
我会努力的,过几天就会回来。谢谢!
标签: c++ x86-64 transactional-memory intel-tsx