可以从下面链接下载timit数据集的一部分,总共应该600多兆,这里只有40多兆,只有一部分也可以。我们可以看看格式。这里只有38个说话人,也就是38个文件夹。
https://download.csdn.net/download/weixin_41864878/10585377
TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。
给定的10个句子中,包括:
- 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
- 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
- 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(theBrown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
这里只有38个说话人,也就是38个文件夹。每个文件夹都各有50个文件,也就是
*.PHN 文件,10个
*.WAV 文件,10个
*.wav 文件,10个
*.WRD 文件,10个,
*.TXT 文件,10个,表示每个人都说了10句话,上面已经介绍了10个句子都是啥。
以上文件都可以用notepad++打开看。
原始的timit数据集好像没有小写wav文件,应该是作者帮我们转好了吧。那就先说下大写WAV文件和小写的wav文件有什么不同。大写WAV文件是NIST sphere格式的波形文件。是一种无损的音频文件格式。具体可自己查。好像就是传统的读法会出错,不管是用python的wave还是 scipy.io中的wavfile,在读取TIMIT的原始WAV时都会报错。但转换格式后的小写wav就可以。参考:https://www.cnblogs.com/JJJanepp/p/10432254.html
打开一个*.phn文件是这个样子(后缀名一般不分大小写啊)
打开一个*.WAV文件是这个样子
打开一个*.wav文件是这个样子
打开一个*.WRD文件是这个样子
打开一个*.TXT文件是这个样子
补充:感谢这个链接
https://blog.csdn.net/sinat_14878111/article/details/82386721
timit的全称是
The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,93年发布的数据集
完整的介绍在这里,下载地址也在里面啊,压缩文件是400多兆
http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3
我已经下载成功啦~~
训练数据是462个说话人的,测试数据是168个说话人的,加起来刚好是630个说话人