【问题标题】:Tokenizing data error, while training a dataset with deepspeech标记数据错误,同时使用 deepspeech 训练数据集
【发布时间】:2019-06-18 14:12:00
【问题描述】:

我按照这个 (https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf) 教程创建了一个语音数据集来使用 DeepSpeech 进行训练。

但是,我无法使用 deepspeech 训练我的数据集。

由于类似 train 命令,它会给出错误

python DeepSpeech.py --train_files /mnt/c/wsl/teneke_out_bolum1/

它会抛出一个错误:

pandas.errors.ParserError:数据标记错误。 C 错误:对源调用 read(nbytes) 失败。试试 engine='python'。

我在 aeneas 力对齐和微调之后创建了数据集:

这是我在 Google Colab 上使用 DeepSpeech 进行训练的代码:

https://gist.github.com/mustafaxfe/d20be114ca7cea5c47ea5cc85653c761

我在 Google 上找到了一些解决方案,例如

data = pd.read_csv('file1.csv', error_bad_lines=False)

同样作为错误输出,我可以通过设置解决

engine='python'

但是,我不知道我应该在哪里改变。

那么,我应该在哪里编辑来解决这个问题。

谢谢。

【问题讨论】:

    标签: python pandas tensorflow dataset


    【解决方案1】:

    您的命令需要重新访问:

    • 您指向的是一个火车数据文件夹。您应该指向一个 .csv 文件
    • 使用 Python3

    您的运行命令应如下所示。检查文档并根据您的需要进行修改。

       python3 -u DeepSpeech.py \
        --train_files /data/phonetic_speech_dta/train/train.csv \
        --dev_files /data/phonetic_speech_dta/dev/dev.csv \
        --test_files /data/phonetic_speech_dta/test/test.csv \
        --train_batch_size 64 \
        --dev_batch_size 32 \
        --test_batch_size 64 \
        --n_hidden 800\
        --validation_step 1\
        --display_step 1 \
        --epoch 100 \
        --log_level 1 \
        --dropout_rate 0.2 \
        --learning_rate 0.001 \
        --drop_count_weight 3.5 \
        --export_dir /speech2text/norwegian_model/results/model_export/ \
        --checkpoint_dir /speech2text/norwegian_model/results/checkpoint/ \
        --decoder_library_path /home/nvidia/tensorflow/bazel-bin/native_client/libctc_decoder_with_kenlm.so \
        --alphabet_config_path /speech2text/norwegian_model/alphabet.txt \
        --lm_binary_path /speech2text/norwegian_model/lm.binary \
        --lm_trie_path /speech2text/norwegian_model/trie
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-03-07
      • 1970-01-01
      • 2018-08-15
      • 2017-09-28
      • 2016-08-09
      • 2023-03-13
      • 2022-10-08
      相关资源
      最近更新 更多