【问题标题】:Inception v3 retraining error (flower example)Inception v3 再训练错误(花示例)
【发布时间】:2019-02-06 10:59:37
【问题描述】:

我目前在花再训练示例 (https://www.tensorflow.org/versions/r0.9/how_tos/image_retraining/index.html) 中遇到了一个奇怪的错误。

Tensorflow Release 0.9 是从源代码安装的,我尝试运行 image_retraining python 脚本(它确实启动并产生了一些瓶颈 但随后出现以下错误消息)。

可能有人知道问题可能是什么?我没有找到任何与此类似的帖子。

E tensorflow/core/kernels/check_numerics_op.cc:157] abnormal_detected_host @0x10007200300 = {1, 0} activation input is not finite.
Traceback (most recent call last):
  File "examples/image_retraining/retrain.py", line 888, in <module>
    tf.app.run()
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", line 30, in run
    sys.exit(main(sys.argv))
  File "examples/image_retraining/retrain.py", line 798, in main
    jpeg_data_tensor, bottleneck_tensor)
  File "examples/image_retraining/retrain.py", line 456, in cache_bottlenecks
    jpeg_data_tensor, bottleneck_tensor)
  File "examples/image_retraining/retrain.py", line 414, in get_or_create_bottleneck
    bottleneck_tensor)
  File "examples/image_retraining/retrain.py", line 331, in run_bottleneck_on_image
    {image_data_tensor: image_data})
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 382, in run
    run_metadata_ptr)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 655, in _run
    feed_dict_string, options, run_metadata)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 723, in _do_run
    target_list, options, run_metadata)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 743, in _do_call
    raise type(e)(node_def, op, message)
tensorflow.python.framework.errors.InvalidArgumentError: activation input is not finite. : Tensor had NaN values
         [[Node: conv_1/CheckNumerics = CheckNumerics[T=DT_FLOAT, message="activation input is not finite.", _device="/job:localhost/replica:0/task:0/gpu:0"](conv_1/batchnorm)]]
Caused by op u'conv_1/CheckNumerics', defined at:
  File "examples/image_retraining/retrain.py", line 888, in <module>
    tf.app.run()
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", line 30, in run
    sys.exit(main(sys.argv))
  File "examples/image_retraining/retrain.py", line 769, in main
    create_inception_graph())
  File "examples/image_retraining/retrain.py", line 312, in create_inception_graph
    RESIZED_INPUT_TENSOR_NAME]))
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/importer.py", line 274, in import_graph_def
    op_def=op_def)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", line 2297, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", line 1231, in __init__
    self._traceback = _extract_stack()

【问题讨论】:

标签: python tensorflow


【解决方案1】:

更新:为了跟进,推荐使用 Tensorflow 1.6,因为许多操作要快得多。如果您运行的是 Nvidia GPU,请确保您安装的是 CUDA 9.0 而不是 9.1,9.1 会破坏一切。

对于 cuDNN,它需要匹配 CUDA 9.0 以及构建 Tensorflow 的版本。对于 Tensorflow 1.6,请务必安装 7.0.4 版本,而不是 7.1,以及构建 1.6 的特定版本(否则,它也会中断): CUDA 9.0(不是 9.1)的确切版本是 cuDNN v7.0.4.31-1。最新版本(此时为 7.1.2)会抛出错误,因为 Tensorflow 1.6 是使用 7.0.4 构建的

原帖: 这是我在 TensorFlow 中也遇到过的一个错误(我在 Ubuntu 14.04 中使用 2x GTX 1080)

一种选择是安装 Cuda 8.0。但是,不完全支持 Cuda 8.0,您可能会遇到其他问题。

如果您只是在试验,另一种解决此问题的方法是构建它并仅在 CPU 上运行它,至少在瓶颈生成阶段是这样。

bazel build -c opt --copt=-mavx tensorflow/examples/image_retraining:retrain
bazel-bin/tensorflow/examples/image_retraining/retrain --image_dir ~/flower_photos

您可能知道,如果您构建了支持 GPU 的 TensorFlow,然后运行以下代码:

python tensorflow/examples/image_retraining/retrain.py --image_dir ~/flower_photos

它将在 GPU 支持下运行,然后您可能会遇到同样的错误。

我在这里打开了一个问题: https://github.com/tensorflow/tensorflow/issues/3560

在他们修复它之前,只要您没有大量要分类的类别,解决方法就可以工作。

【讨论】:

  • 谢谢,看来是同样的问题。我们可能会尝试切换到 Cuda 8.0
  • 祝你好运! Cuda 8.0 是一个候选版本,所以如果可能的话,我会备份你的工作 Cuda 7.5 设置。
猜你喜欢
  • 2017-06-12
  • 2017-08-14
  • 1970-01-01
  • 2018-05-22
  • 2017-10-24
  • 2017-03-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多