【发布时间】:2013-02-01 03:52:56
【问题描述】:
我随便阅读了英特尔架构参考手册http://www.cs.princeton.edu/courses/archive/spr12/cos217/reading/ia32opt.pdf,当我阅读指令延迟和吞吐量附录时,我发现延迟(执行核心所需的时钟周期数) 完成构成指令的所有微操作的执行。)对于 sqrt 指令,与除法(第 C-28 页)指令的延迟完全相同——至少对于某些微架构而言。对于单精度、双精度和扩展精度,数字分别为 30、40 和 44 个时钟周期。
我的问题是 sqrt 指令如何与 div 指令一样大的处理器接收器?我一直认为 sqrt 指令在任何语言中都是昂贵的。
【问题讨论】:
-
他们可能在某处使用查找表
-
也许吧,虽然我不相信硬编码到处理器中的 64 位地址会形成一个易于管理的查找表
标签: algorithm optimization assembly language-agnostic