【问题标题】:Error during training in deepspeech Internal: Failed to call ThenRnnForward with model config: [rnn_mode, rnn_input_mode, rnn_direction_mode]在 deepspeech 内部训练期间出错:无法使用模型配置调用 ThenRnnForward:[rnn_mode, rnn_input_mode, rnn_direction_mode]
【发布时间】:2021-09-23 07:59:31
【问题描述】:

尝试执行时出现以下错误

%cd /content/DeepSpeech
!python3 DeepSpeech.py --train_cudnn True --early_stop True --es_epochs 6 --n_hidden 2048 --epochs 20 \
  --export_dir /content/models/ --checkpoint_dir /content/model_checkpoints/ \
  --train_files /content/train.csv --dev_files /content/dev.csv --test_files /content/test.csv \
  --learning_rate 0.0001 --train_batch_size 64 --test_batch_size 32 --dev_batch_size 32 --export_file_name 'ft_model' \
   --augment reverb[p=0.2,delay=50.0~30.0,decay=10.0:2.0~1.0] \
   --augment volume[p=0.2,dbfs=-10:-40] \
   --augment pitch[p=0.2,pitch=1~0.2] \
   --augment tempo[p=0.2,factor=1~0.5] 

tensorflow.python.framework.errors_impl.InternalError: 2 根错误 成立。 (0) 内部:使用模型配置调用 ThenRnnForward 失败: [rnn_mode, rnn_input_mode, rnn_direction_mode]: 2, 0, 0, [num_layers, input_size,num_units,dir_count,max_seq_length,batch_size, cell_num_units]: [1, 2048, 2048, 1, 798, 64, 2048] [[{{节点 tower_0/cudnn_lstm/CudnnRNNV3}}]] [[tower_0/gradients/tower_0/BiasAdd_2_grad/BiasAddGrad/_87]] (1) 内部:无法使用模型配置调用 ThenRnnForward:[rnn_mode, rnn_input_mode, rnn_direction_mode]: 2, 0, 0, [num_layers, input_size,num_units,dir_count,max_seq_length,batch_size, cell_num_units]: [1, 2048, 2048, 1, 798, 64, 2048] [[{{节点 tower_0/cudnn_lstm/CudnnRNNV3}}]] 0 次成功操作。 0派生 错误被忽略。

【问题讨论】:

    标签: python google-colaboratory speech-to-text mozilla-deepspeech custom-training


    【解决方案1】:

    如果我按照下面的方法尝试它,效果很好。

    %cd /content/DeepSpeech
    !python3 DeepSpeech.py --train_cudnn True --early_stop True --es_epochs 6 --n_hidden 2048 --epochs 20 \
      --export_dir /content/models/ --checkpoint_dir /content/model_checkpoints/ \
      --train_files /content/train.csv --dev_files /content/dev.csv --test_files /content/test.csv \
      --learning_rate 0.0001 --train_batch_size 64 --test_batch_size 32 --dev_batch_size 32 --export_file_name 'ft_model' \
      # --augment reverb[p=0.2,delay=50.0~30.0,decay=10.0:2.0~1.0] \
      # --augment volume[p=0.2,dbfs=-10:-40] \
      # --augment pitch[p=0.2,pitch=1~0.2] \
      # --augment tempo[p=0.2,factor=1~0.5]
    

    基本上,增强是在做一些事情来打破我们之间的训练

    【讨论】:

      【解决方案2】:

      这里最好的猜测是 TensorFlow 内存不足。在这两种情况下,dev、test 和 train 的批大小都非常大,但扩充需要 额外的 内存。尝试将batch_size 放下,看看是否开始训练,如果是,则逐渐增加。

      【讨论】:

        猜你喜欢
        • 2021-08-06
        • 2019-09-26
        • 2021-07-09
        • 2020-06-16
        • 2019-06-03
        • 2017-08-19
        • 1970-01-01
        • 2019-11-21
        • 2016-11-23
        相关资源
        最近更新 更多