概述
MCLP(Multichannel Linear Prediction)算法也被称为WPE(Weighted Prediction Error)算法,是实现语音信号去混响的一种方法。本文关注MISO(Multiple Input Single Output)版本的MCLP算法的原理,即输入为多个麦克风接收信号,输出为一路去除混响之后的语音信号。主要内容包括MCLP模型、待求解的目标函数、离线解,自适应解,并给出仿真波形。
符号表示:对语音信号做短时傅里叶变换,n表示帧号,l表示频点,M表示麦克风个数。y1,n,l表示第一个麦克风接收的第n帧第l个频点的信号,sn,l表示纯净信号,将多个麦克风的接收信号写成向量形式为yn,l=(y1,n,l,y2,n,l,...,yM,n,l)T,将n−Δ帧到n−Δ−K+1帧的接收信号记为yˉn−Δ,l=(yn−Δ,lT,...,yn−Δ−K+1,lT)T。
原理
MCLP模型
MCLP模型表示当前接收信号由当前纯净信号与过去若干帧的接收信号线性组合而成。忽略噪声,用公式表示如下
y1,n,l=glHyˉn−Δ,l+sn,l
这里gl为长度为MK的列向量,被称为线性系数(linear coefficients),去混响算法的目的就是估计出gl,从当前接收信号y1,n,l中减去混响部分“glHyˉn−Δ,l”,从而恢复出sn,l。
目标函数
求解上述gl的思路是最大化似然函数。假设已知n=1~N帧的接收信号,则最优化问题表示为
maxn=1∑Nlogp(y1,n,l)
<=> maxn=1∑Nlogp(y1,n,l∣sn,l)p(sn,l)
由MCLP模型,上式中p(y1,n,l∣sn,l)=δ(y1,n,l−glHyˉn−Δ,l),并假设sn,l服从时变复高斯分布,即sn,l~NC(0,λn,l),将高斯分布的概率表达式代入上式,可知上述最优化问题等价于
λn,l>0,glminn=1∑N(λn,l∣sn,l∣2+logπλn,l)
离线解
上式目标函数包含两组参数:gl与λn,l。可用EM算法求解,首先固定gl不变求解λn,l,有
λn,l=∣y1,n,l−glHyˉn−Δ,l∣2
再固定λn,l不变求解gl,即
glminn=1∑Nλn,l∣y1,n,l−glHyˉn−Δ,l∣2
注意到上式目标函数为gl的二次函数,对gl求导置零可得解析解:
gl=(λn,ln=1∑Nyˉn−Δ,lyˉn−Δ,lH)−1(λn,lyˉn−Δ,ly1,n,l∗)
不断重复上式计算gl与λn,l直至收敛即可。该gl的解析解通常被称为离线解,因为需要已知n=1~N帧所有接收信号来计算去混响之后的信号,属于“batch processing”。下一部分讨论gl的自适应解。
自适应解
自适应解也称为在线解,使算法可用于实时处理信号。将求解gl的目标函数加入指数因子,
glminn=1∑NαN−nλn,l∣y1,n,l−glHyˉn−Δ,l∣2
采用RLS(Recursive Least Square)算法求解上式,可得
kl(n)=αλn,l+yˉn−Δ,lHΣl(n−1)yˉn−Δ,lΣl(n−1)yˉn−Δ,l
Σl(n)=αΣl(n−1)−kl(n)yˉn−Δ,lHΣl(n−1)
gl(n)=gl(n−1)+kl(n)(y1,n,l−glH(n−1)yˉn−Δ,l)
其中kl为MK长度的列向量,Σl为MK×MK的复矩阵。
仿真图形
使用麦克风阵列为彼此间距6cm的四麦克风圆阵,在室内带一定混响的安静环境采集语音数据。采用上文所述自适应MCLP算法处理语音数据,输出一路数据,将其中一路输入信号与算法输出信号对比如下。从波形上可看出处理后的语音拖尾变小,可见MCLP能有效去除混响。

图1 MCLP算法处理语音
Reference
本文主要参照[1]和[2],其中离线解部分参照[1],自适应解部分参照[2]。
常见的MCLP算法还包括SISO(Single Input Single Output)版本和MIMO(Multiple Input Multiple Output)版本。其中SISO为本文MISO版本的算法的一个特例,上述推导过程只需修改使M=1即可。MIMO版本通常要求输出的多路去混响信号保持TDOA信息不变,以便后续接波束算法。MIMO版本的MCLP算法推导与本文有所不同,离线解可参照[3]、自适应解可参照[4]。
[1] GB/T 7714 Jukic A , Van Waterschoot T , Gerkmann T , et al. Multi-Channel Linear Prediction-Based Speech Dereverberation With Sparse Priors[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(9):1509-1520.
[2] Yoshioka T , Tachibana H , Nakatani T , et al. Adaptive dereverberation of speech signals with speaker-position change detection[C]// IEEE International Conference on Acoustics. IEEE, 2009.
[3] Yoshioka T , Nakatani T . Generalization of Multi-Channel Linear Prediction Methods for Blind MIMO Impulse Response Shortening[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(10):2707-2720.
[4] Nakatani T , Yoshioka T . Dereverberation for Reverberation-Robust Microphone Arrays[C]// Signal Processing Conference. IEEE, 2014.