Speech Recognition

speech:a sequence of vector(length T, dimension d)
text:a sequence of tokens(length N, V kinds of different tokens)
T > N
李宏毅2020人类语言处理—P2

Token的单位,形式

需要语言学家

  • phoneme,音素(指一种语言中能区别两个词的最小语音单位)≤ 音标
    Lexicon,字典(word to phonemes)

  • Grapheme,smallest unit of a writing system,比如26 English alphabet,即V的种类数量。
    实际上还要考虑“_”分词符号(space)和{punctuation marks}(标点符号)。中文不需要考虑space。

  • Word,词
  • Morpheme,the smallest meaningful unit ( <word but >grapheme)
  • Bytes:the system can be language independent,因为直接输出文字的机器编码,如UTF-8

使用情况:李宏毅2020人类语言处理—P2

输出的任务

李宏毅2020人类语言处理—P2

处理语音

李宏毅2020人类语言处理—P2

窗口为25毫秒,每次右移10毫秒,所以有重合部分。
16KHz,一秒16k个值。25毫秒有400个值。
frame表示该窗口的语音特征,3种dimension。


处理步骤及流行情况-2019年

李宏毅2020人类语言处理—P2
李宏毅2020人类语言处理—P2

语料库corpus,corpora

Librispeech 免费

李宏毅2020人类语言处理—P2
mnist只是类比。

还有Google Voice Search:12000+hours; FaceBook Video:13000+hours
实际The commercial systems use more than that number presented in paper.

Two points of view 看待模型

  1. seq-to-seq
  2. HMM

Model

李宏毅2020人类语言处理—P2

趋势

李宏毅2020人类语言处理—P2

相关文章: