【问题标题】:cublas failed to synchronize stop event?cublas 无法同步停止事件?
【发布时间】:2013-04-25 09:54:43
【问题描述】:

我正在使用matrixMulCUBLAS 示例代码并尝试将默认矩阵大小更改为更有趣的行=5k x cols=2.5k,然后示例失败并在第 377 行出现错误Failed to synchronize on the stop event (error code unknown error)!所有的计算都完成了,它显然正在清理 cublas。这是什么意思?以及如何解决?

我安装了带有 2GB 内存的 EVGA FTW nVidia GeForce GTX 670 的 cuda 5.0。驱动程序版本是今天最新的 314.22。

【问题讨论】:

  • 使用此示例,您可以使用命令行开关 (-sizemult=xx) 更改矩阵的大小,但您的 sizemult 限制为 10 或更小,因此最大矩阵大小为 (640 ,1280)。由于您谈论的是更大的尺寸,我假设您对代码进行了一些更改。您可以发布这些确切的更改吗?矩阵大小是通过组合 3 个不同的数字创建的,所以我不确定您为实现这些大小所做的更改。
  • 在 Windows 下,您可能还会遇到 TDR 事件,我不确定。对于这些大小的矩阵,cublas sgemm 操作的总体执行时间相当长——在我运行的一项测试中大约需要 6-7 秒。您可以通过将 nIter 循环减少到 1 或较小的数字来解决此问题。您会知道您是否遇到了 Windows TDR 事件,因为屏幕会短暂变黑。我尝试将矩阵大小计算中的 2 和 4 乘数修改为 16 和 32,并没有遇到任何问题(虽然主机端计算需要很长时间。)
  • 确实,我遇到了一个 Windows TDR 事件,但不知道如何预防/修复它......有什么想法吗?
  • 如果你用谷歌搜索“windows tdr”,前几个点击都来自微软,如果你想更改超时时间,它们是我知道的最佳参考。正如我所提到的,您还可以尝试减少 nIter 循环,这将减少 sgemm 调用的数量。它可能会有所帮助。

标签: cuda gpu cublas


【解决方案1】:

一般来说,在windows上使用CUDA时,需要保证单个内核的执行时间不超过2秒左右。如果执行时间变长,您可能会遇到 Windows TDR 事件。这是一个 Windows 看门狗计时器,如果它在一定时间内没有响应,它将重置 GPU 驱动程序。这样的重置会停止内核的执行并生成虚假结果,通常还会在系统托盘中显示短暂的“黑色”显示和简短消息。如果您的内核执行触发了 Windows 看门狗计时器,您有几个选择:

  1. 如果您有可能在系统中使用多个 GPU(即这里通​​常不谈论笔记本电脑)并且您的 GPU 之一是 Quadro 或 Tesla 设备,则 Quadro 或 Tesla 设备通常可以放置在 TCC 中模式。这将意味着 GPU 不能再驱动物理显示器(如果它正在驱动物理显示器)并且它已从 WDDM 子系统中移除,因此不再受看门狗定时器的约束。您可以使用 NVIDIA GPU 驱动程序附带的 nvidia-smi.exe 工具将给定 GPU 的设置从 WDDM 修改为 TCC。使用 Windows 文件搜索功能查找 nvidia-smi.exe,然后使用 nvidia-smi --help 获取有关如何从 WDDM 切换到 TCC 模式的命令行帮助。
  2. 如果您无法使用上述方法(没有 2 个 GPU,没有 Quadro 或 Tesla GPU...),那么您可能需要研究更改看门狗定时器设置。不幸的是,这需要修改系统注册表,并且进程和特定密钥因操作系统而异。网络上有许多资源,例如来自 Microsoft 的 here,以及有关 Stack Overflow 的其他问题,例如 here,可能对此有所帮助。
  3. 第三个选项只是限制内核的执行时间。连续的操作可能会分解为多个内核调用。内核调用之间的“间隙”将允许显示驱动程序响应操作系统,并防止看门狗超时。

关于 TCC 支持的声明是一般性的。并非所有 Quadro GPU 都受支持。在特定 GPU 上支持(或不支持)TCC 的最终决定因素是 nvidia-smi 工具。此处的任何内容都不应被解释为保证在您的特定 GPU 上支持 TCC。

【讨论】:

    猜你喜欢
    • 2014-04-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-20
    相关资源
    最近更新 更多