【发布时间】:2015-01-11 21:00:58
【问题描述】:
我想在每个线程上创建一个 100 的整数数组和另一个约 10-100 个整数(因用户输入而异)的数组。我将在一个线程上多次重用array_views 中的数据,因此我想将array_views 的内容复制为本地数据以增加内存访问时间。 (每个线程负责它“自己的”array_view 的 100 个元素,使用我的算法不可能为每个元素创建一个线程)如果不可能,平铺静态内存也可以解决问题,但是本地线程会会更好。
我的问题是,我可以在线程上分配多少字节作为局部变量/数组(适用于大多数 GPU 的最小数量)? 此外,我可以使用哪个软件查询我的 GPU 的功能(每个线程的寄存器数、每个图块的静态内存大小等)。CUDA SDK 有一个实用程序应用程序可以查询 GPU 的功能,但我有一个 AMD一,Radeon HD 5770,如果我是正确的,它将无法与我的 GPU 一起使用。
【问题讨论】: