【发布时间】:2020-03-06 17:27:04
【问题描述】:
我有一个要复制的图像的源指针和目标指针。当我在 CPU 上运行复制代码时,需要 2 毫秒。 现在,我在 open cl 上运行代码:
clCreateBuffer(context,CL_MEM_USE_HOST_PTR|CL_MEM_READ_WRITE,size,src_ptr,errcode_ret)
clCreateBuffer(context,CL_MEM_USE_HOST_PTR|CL_MEM_READ_WRITE,size,dst_ptr,errcode_ret)
并使用全局工作组大小(w,H)编写内核。所以,每个内核都在复制一个像素。大约是 20 毫秒。
有人可以帮我,当我们有指向全局内存的图像指针时,如何在打开的 cl 上有效地进行内存复制。此过程使用的适当工作组大小是多少?
【问题讨论】:
标签: performance opencl