【发布时间】:2019-06-18 14:12:00
【问题描述】:
我按照这个 (https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf) 教程创建了一个语音数据集来使用 DeepSpeech 进行训练。
但是,我无法使用 deepspeech 训练我的数据集。
由于类似 train 命令,它会给出错误
python DeepSpeech.py --train_files /mnt/c/wsl/teneke_out_bolum1/
它会抛出一个错误:
pandas.errors.ParserError:数据标记错误。 C 错误:对源调用 read(nbytes) 失败。试试 engine='python'。
我在 aeneas 力对齐和微调之后创建了数据集:
这是我在 Google Colab 上使用 DeepSpeech 进行训练的代码:
https://gist.github.com/mustafaxfe/d20be114ca7cea5c47ea5cc85653c761
我在 Google 上找到了一些解决方案,例如
data = pd.read_csv('file1.csv', error_bad_lines=False)
同样作为错误输出,我可以通过设置解决
engine='python'
但是,我不知道我应该在哪里改变。
那么,我应该在哪里编辑来解决这个问题。
谢谢。
【问题讨论】:
标签: python pandas tensorflow dataset