【发布时间】:2020-07-17 17:35:41
【问题描述】:
我有一个应用程序,它使用 OpenCL 在多个设备上拆分矩阵向量乘法。我在具有 Intel Xeon CPU 和三个相同的 NVIDIA Kepler GPU 的计算机上测试了该应用程序。如果我使用 2048x2048 的输入大小,那么与 GPU 相比,CPU 的加速比约为 1.4。与一个 GPU 相比,两个 GPU 的加速比约为 2,但一个 GPU 加一个 CPU 的加速比仅为 ~1.7。如果我使用三个设备,与一个 GPU 相比,结果看起来相似:三个 GPU 的加速比约为 3,但两个 GPU 加一个 CPU 的加速比仅为 ~2.4。
所以我的问题是:当我用 CPU 替换 GPU 时,加速下降的原因是什么? CPU 比 GPU 快。
【问题讨论】:
标签: performance opencl cpu gpu