Speech Recognition
speech:a sequence of vector(length T, dimension d)
text:a sequence of tokens(length N, V kinds of different tokens)
T > N
Token的单位,形式
需要语言学家
- phoneme,音素(指一种语言中能区别两个词的最小语音单位)≤ 音标
Lexicon,字典(word to phonemes)
- Grapheme,smallest unit of a writing system,比如26 English alphabet,即V的种类数量。
实际上还要考虑“_”分词符号(space)和{punctuation marks}(标点符号)。中文不需要考虑space。
- Word,词
- Morpheme,the smallest meaningful unit ( <word but >grapheme)
- Bytes:the system can be language independent,因为直接输出文字的机器编码,如UTF-8
使用情况:
输出的任务
处理语音
窗口为25毫秒,每次右移10毫秒,所以有重合部分。
16KHz,一秒16k个值。25毫秒有400个值。
frame表示该窗口的语音特征,3种dimension。
处理步骤及流行情况-2019年
语料库corpus,corpora
Librispeech 免费
还有Google Voice Search:12000+hours; FaceBook Video:13000+hours
实际The commercial systems use more than that number presented in paper.
Two points of view 看待模型
- seq-to-seq
- HMM
Model
趋势