声学特征:Attribute Features
1. introduction
foreign accent recognition和accent recognition的不同:
- foreigner的词汇缺乏
- foreigner说话带mother language口音
2. computation of feature
step1: 确定属性
(glide, fricative, nasal, stop, and vowel)
step2: attribute detector
definition:converts an input utterance into a time series that describes the level of presence (or level of activity) of a particular property of an attribute over time
detector是由三个神经网络组成,输入是Mel-frequency filterbank,输出是每一个属性的后验概率,其结构为,分成左内容和右内容分别输入不同的front-end神经网络,最后将前两个神经网络得到的后验概率通过最后一个merger神经网络得到融合的后验概率。
step3: long-term attribute extraction
上面得到的所有后验概率包括
然后我们把所有属性的后验概率进行一个concatenation,然后现在的feature是short-term(属性都是short-term的),对于这种任务,long-term的特征效果比较好,因此进行一步类似SDC的操作stack起来(说类似是因为毕竟现在的特征不是倒谱,和SDC有区别),最后进行一步PCA降维。
参考论文:Introducing attribute features to foreign accent recognition