【发布时间】:2019-09-22 12:44:48
【问题描述】:
我正在尝试使用 pycuda 来加速我的神经网络(我知道 tensorflow 更容易用于 GPU 加速,我只是想先手动完成,因为我对神经网络比较陌生),但是每当我通过数组到 GPU 并让每个线程在 threadIdx 处打印出数组的值,即使我设置了数组值,它也会打印零。
我尝试使用一个非常简单的内核进行测试,它只打印一维数组的值,并且我尝试将数据类型更改为 float32。
我用于测试此问题的基本内核:
test_mod = SourceModule("""
__global__ void test(float *a)
{
printf("%d: %d\\n", threadIdx.x, a[threadIdx.x]);
}
""")
我用来创建数组和初始化内核的python代码:
a = np.asarray([4,2,1])
a = a.astype(np.float32)
test_module = test_mod.get_function("test")
test_module(cuda.In(a), block=(3, 1, 1))
我希望它打印一些 4、2 和 1 的顺序,但每个线程都打印一个 0。
【问题讨论】:
-
%d是正确的printf格式说明符来打印float数量吗?我不这么认为。我认为它应该是%f或类似的东西。 -
非常感谢!这让我永远卡住了