【发布时间】:2012-10-14 14:49:30
【问题描述】:
我正在编写一个程序,该程序需要使用 CUDA 将数百个矩阵并行相乘。有人可以解释如何执行此操作。
我已经看到 Kepler 架构能够实现动态并行。有人用过这种架构吗?如果是的话,是哪款 Nvidia 显卡。
【问题讨论】:
-
所有矩阵的大小都一样吗?
-
矩阵的大小是多少?动态并行性在哪里发挥作用?或者这是一个不同的问题?
-
最新的 CUBLAS 库带有一个用于矩阵乘法的批处理模式,只要矩阵大小相同,它就允许这样做 - docs.nvidia.com/cuda/cublas/index.html#topic_3_6
标签: matrix cuda matrix-multiplication