【发布时间】:2017-11-17 07:58:21
【问题描述】:
在 CUDA 中,将统一内存指针传递给内核会减慢程序速度吗?
我让一个内核做一些事情,然后我 cudaMalloc 管理内核外部的一些统一内存,然后将指针作为参数传递给内核。我用 cuda_Event 来计时。内核的运行速度从 1900 毫秒到 3000 毫秒要慢得多。
为什么传递一个指针需要太多?指针?
我应该如何加快程序的速度?
【问题讨论】:
-
可能是因为统一内存正在以一种或另一种方式复制与指针关联的数据。