【发布时间】:2017-04-10 06:55:37
【问题描述】:
我正在尝试训练 lstm 模型进行语音识别,但不知道要使用哪些训练数据和目标数据。我正在使用LibriSpeech dataset,它包含音频文件及其转录本。在这一点上,我知道目标数据将被向量化的转录文本。至于训练数据,我正在考虑使用每个音频文件(或 MFCC 功能)的频率和时间。如果这是解决问题的正确方法,训练数据/音频将是多个数组,我将如何将这些数组输入到我的 lstm 模型中?我必须对它们进行矢量化吗?
谢谢!
【问题讨论】:
标签: tensorflow speech-recognition keras speech-to-text lstm