【问题标题】:How to train an lstm for speech recognition如何训练用于语音识别的 lstm
【发布时间】:2017-04-10 06:55:37
【问题描述】:

我正在尝试训练 lstm 模型进行语音识别,但不知道要使用哪些训练数据和目标数据。我正在使用LibriSpeech dataset,它包含音频文件及其转录本。在这一点上,我知道目标数据将被向量化的转录文本。至于训练数据,我正在考虑使用每个音频文件(或 MFCC 功能)的频率和时间。如果这是解决问题的正确方法,训练数据/音频将是多个数组,我将如何将这些数组输入到我的 lstm 模型中?我必须对它们进行矢量化吗?

谢谢!

【问题讨论】:

    标签: tensorflow speech-recognition keras speech-to-text lstm


    【解决方案1】:

    要准备用于输入 LSTM 模型的语音数据集,您可以查看这篇文章 - Building Speech Dataset for LSTM binary classification 以及片段 Data Preparation

    作为一个很好的例子,你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。这篇文章讨论了如何使用 RNN - LSTM 在 Keras 中预测向量序列

    我相信你会发现这篇文章 (https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras) 也很有帮助。

    【讨论】:

    • @user562 能否请您分享 ASR 模型的方法或代码源。我一直在为我的大学项目工作,但没有得到太多关于它的信息。
    猜你喜欢
    • 2011-02-17
    • 1970-01-01
    • 1970-01-01
    • 2016-04-03
    • 2016-08-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多