【发布时间】:2014-03-26 01:02:52
【问题描述】:
我下载了 CUDA 6.0 RC 并在我的应用程序中使用“cudaMallocManaged”测试了新的统一内存。但是,我发现这个内核变慢了。
与 cudaMallocManaged (~0.63) 相比,使用 cudaMalloc 后跟 cudaMemcpy 更快 (~0.56)。这是预期的吗?
website 中的一个声称 cudaMallocManged 用于“更快的 cuda 内核原型设计”,所以我想知道在性能方面哪个应用程序更好?
谢谢。
【问题讨论】:
-
如果主机内存被固定,是的,它应该比托管内存快。
-
但我没有使用任何固定内存。
-
如何分配主机内存?
-
我复制了上面的内核调用部分和分配部分供参考。
-
谢谢,但是如何分配主机内存(
*.data)?