【发布时间】:2015-05-21 22:48:01
【问题描述】:
我对 cudamallocmanaged 的疑问是,如果我 malloc N 个数字,在 GPU 完成对这些数字的操作(比如说扫描操作)之后,我只需要数组中的最后一个数字,并且只访问主机中的这个数字. cudamallocmanaged 只会复制这个数字吗?
我做了一个测试,我的答案是否定的。所以我认为在这种情况下 cudamalloc/free/copy 比 cudamallocmanaged 更快。如果我错了,请纠正我。
那么接下来的问题是:如何知道来回复制的时间和数量?
【问题讨论】: