语音识别资料整理
语音识别
Information
cmu sphinx
Kaldi
DataSet
-
TensorFlow15: 中文语音识别 :包含数据集下载和训练代码
语音数据库集合及下载链接
THCHS30
# 下载中文语音数据集(5G+):
$ wget http://data.cslt.org/thchs30/zip/wav.tgz
$ wget http://data.cslt.org/thchs30/zip/doc.tgz
$ wget http://data.cslt.org/thchs30/zip/lm.tgz
# 解压
$ tar xvf wav.tgz
$ tar xvf doc.tgz
$ tar xvf lm.tgz
CSLT数据
清华大学cslt实验室分享中文语音识别: 数据集
data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )
Theory
-
GMM-HMM语音识别模型原理
- HMM中的viterbi算法
- 语音专题第四讲,语音识别之解码器技术简介
-
知乎:语音识别的技术原理
关于原理的理解写的很透彻,再细看理解声学特征提取,如MFCC,其中假设声学特征是12维,这和Alex(train_vad_ffnn)里得到MFCC是26维一样的道理么,这个维度如何界定?
Examples
- Kaldi在语音数据库timit上的声学和语音模型训练--1
- kaldi终于有了免费的中文语音识别的例子
- 语音识别kaldi--安装与yesno实例说明
- Kaldi运行timit语音库的部分结果与问题