【发布时间】:2019-05-05 16:38:01
【问题描述】:
我们在使用 K80 GPU 的 Google Cloud Platform 中的某些机器上使用 Keras 和 Tensorflow 开发深度学习应用程序。
我们遇到了一些双位 ECC (DBE) 错误问题。根据官方文档https://docs.nvidia.com/deploy/dynamic-page-retirement/index.html:
应用程序将收到正常退出的 DBE 事件通知, 在 DBE 完成之前,不会在 GPU 上创建更多上下文 绘制出来。
当这些错误发生时,我们的应用程序会使用 100% 的 CPU。我们目前不知道它在做什么,但我们会努力添加更多监控它的方法。
我的问题是我的应用程序如何接收这些 DBE 事件通知?是 SIGTERM、调用 Keras 时我应该捕获的某种类型的错误,还是我应该做的其他事情?
提前致谢
【问题讨论】:
-
如果 GPU 出现故障导致其无法使用,CUDA 运行时将产生错误。您正在使用的框架如何处理这些错误是关于框架的问题,而不是与 CUDA 相关的任何问题
标签: tensorflow keras cuda