【发布时间】:2011-07-29 12:26:01
【问题描述】:
在Programming Massively Parallel Processors一书中,使用gflops的数量来比较不同矩阵乘法内核的效率。我如何在我自己的机器上为我自己的内核计算这个?
我在 NVIDIA 论坛的某个地方找到了这个“算法”,但我不知道它的有效性或两个时间的来源。
NumOps = 2 * pow(MatrixSize,3)
gflops = 1.0e-9 * NumOps / ExecutionTime
附言请随意更改标签...
【问题讨论】:
标签: cuda benchmarking gpgpu