【发布时间】:2021-09-24 18:16:57
【问题描述】:
据我了解,要执行并发内核(在我的情况下是相同的内核但不同的 I/O 数据),必须通过启动具有明显自己的工作组的独特计算单元(流式多处理器 -SM)来完成。
例如 gtx960m 有 5 个 SM(Opencl 中的计算单元)。以自己的 16x16 (2d) 工作组异步无序启动clEnqueueNDRangeKernel 5 次,会启动所有 5 个计算单元以同时执行它们吗?报告的本地内存为 64kb。这是针对所有计算单元,还是每个单元都有自己的 64kb?
【问题讨论】:
标签: concurrency gpu opencl nvidia