【发布时间】:2018-02-12 21:59:23
【问题描述】:
我在执行昨天运行良好的简单 Tensorflow 模型时遇到问题。我怀疑,问题完全与给定的错误有关
Blas GEMM launch failed
在控制台中显示,
tensorflow/core/common_runtime/gpu/gpu_util.cc:343] CPU->GPU Memcpy failed
我的印象是,这可能与我基于此的 CUDA 安装有关
TensorFlow: Blas GEMM launch failed
但是,我看不到如何运行 simpleCUBLAS 示例。我对 CUDA 完全陌生。
我有 4 个 1080ti GPU(Ubuntu 16.04,TensorFlow 1.3.0),我没有发现任何占用 GPU 内存的僵尸进程。任何帮助是极大的赞赏。
【问题讨论】:
-
这可能意味着您的内存不足。尝试减少批量大小或缩小模型
-
雅罗斯拉夫。非常感谢。我不认为代码可能是问题。在过去的几天里,这个模型运行了很多次,没有出现任何问题。此外,我将批量大小减少到 1 和图像大小(它是一个 CNN)。我认为内存分配肯定存在问题,但不是专门由于这个模型造成的。我也有“cuDNN 无法创建句柄错误”(再次提示内存问题。被卡在这个问题上 9 小时......
-
cuDNN cannot create handle也可能是 GPU 内存不足引起的 -
没错。我同意你的观点,但它没有解释为什么一个参数少于 100k 的简单模型在一天内有效训练,突然抛出一个内存错误。我同意这个问题与记忆有关——我只是不确定模型是否是问题所在。我以为我有一些僵尸进程,但我没有。感谢您的回复
标签: tensorflow cublas