给机器戴上“耳朵”——语音识别技术（ASR）

语音识别技术（ASR）

再给机器安装“眼睛”后，给机器安装“耳朵”成为了人类的奋斗目标与理想。从上世纪50年代贝尔研究所成功研究出世界上第一个能识别10个英文数字发音的系统，到目前全球各地研制的各具特色的语音识别系统，人类对于语音的探索已接近半个世纪，能让机器真正“听”得懂人类的语言，就要归功于语音识别技术。

语音识别（Automatic Speech Recognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

而这项技术又是如何让机器“听”懂语音呢？

语音识别技术原理是先将语音分帧，将语音分成很多小段，但此时每一个语音小段没有描述能力，所以需要利用各种方法对波形进行转换，常见的方法有提取特征值。之后需要将转换后的每一帧语音识别成状态，再将状态组合成字词或命令，这样便实现了将语音转换成文字，给机器戴上了“耳朵”。