CUDA矩形乘法——常规模型

上篇中http://www.cnblogs.com/Romi/archive/2012/05/09/2492363.html，出了点问题，也是后来才发现的，意识到每个块中最多只能有512个线程，而该文的块大小为64*64，显然超过了512，因此此篇将其改为16，即TILE_WIDTH=16。其他代码还是和上篇一样。

矩阵计算模型的数组元素索引如下图所示

CUDA矩形乘法——常规模型

测试结果如下：

CUDA矩形乘法——常规模型

GPU计算时间变长了，上篇那样数组中的元素并没有全计算到。可以看到GPU计算时间虽然也有点多，但还是比CPU串行计算要快。

此文中数据保存在全局存储器，进行计算时，从全局存储区取数据进行计算，而从全局存储器取数据的速度是很慢的，而且取矩阵元素有很多重复，即一个矩阵元素取了好多次，这些都会对计算性能产生影响，因此还可以进一步优化。