简介
1、非端到端学习(传统的语音识别系统)
传统的语音识别需要把语音转换成语音特征向量,然后把这组向量通过机器学习,分类到各种音节上(根据语言模型),然后通过音节,还原出最大概率的语音原本要表达的单词,一般包括以下模块:
- 特征提取模块 (Feature Extraction):该模块的主要任务是从输入信号中提取特征,供声学模型处理。一般也包括了一些信号处理技术,尽可能降低环境噪声、说话人等因素对特征造成的影响,把语音变成向量。
- 声学模型 (Acoustic Model): 用于识别语音向量
- 发音词典 (Pronnuciation Dictionary):发音词典包含系统所能处理的词汇集及其发音。发音词典提供了声学模型与语言模型间的联系。
- 语言模型 (Language Model):语言模型对系统所针对的语言进行建模。
- 解码器 (Decoder):任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
传统的语音识别中的语音模型和语言模型是分别训练的,缺点是不一定能够总体上提高识别率。
来自wiki
2、端到端学习(端到端的语音识别系统)
端到端学习的思路则非常简单:音频→学习算法→转录结果;
而现在,我们可以直接通过深度学习将语音直接对标到我们最终显示出来的文本。
通过深度学习自己的特征学习功能来完成从特征提取到音节表达的整个过程。
在给定了足够的有标注的训练数据时(语音数据以及对应的文本数据),端到端的语音识别方法的效果会很好。