Support Vector Machines using GMM Supervectors for Speaker Verification

W. M. Campbell, D. E. Sturim, D. A. Reynolds MIT Lincoln Laboratory
244 Wood Street
Lexington, MA 02420 Corresponding author e-mail: [email protected] Phone: 781-981-1061

EDICS Category: SPE-SPKR

 

高斯混合模型Gaussian mixture models(GMMs)已经证明了在文本无关(text-independent)的说者识别(speaker recognition)上极为成功。高斯混合模型(GMMs)的标准训练方法是 使用 基于来自目标说者(target speaker)【识别对象】的语音(speach)的混合【模型】的组成部分(mixture components)【很多的高斯分布】的各个均值(means)的最大后验概率(maximum a posterior MAP)适应(adaptation)【用MAP方法来调整什么就叫做去适应什么】。最近在说者(speaker)差异(variability)【不同人说话的差异】和通道(channel)差异(variability)【人在不同说话环境的差异】上的补偿(compensation)方法 已经提出了一个想法:堆栈(stacking)【垒起来】GMM模型的多个均值来形成一个高斯混合模型均值超向量(GMM mean supervector)。我们试验了这个想法,在一个支持向量机(Support vector machine)分类器(classifier)中,使用GMM超向量。我们提出了两个新的SVM核(kernels【用低维度下两个量的关系的描述值,能够表示两个值映射到高维度后之间的关系的描述值】),基于多个GMM模型之间的距离衡量指标(distance metrics)。我们展示了这些SVM的核产生了极好的分类精度,在美国国家标准与技术研究院(National Institute of Standards and Technology NIST)说者识别评估(speaker recognition evaluation SRE)任务中。

1、介绍

我们考虑内容无关(text-independent)说者校验(speaker verification)问题【说什么不考虑,只考虑声音】。那就是,给出测试语声(test utterance)【测试模型用的或者说校验用的】,身份声明(claim of identity)【声音是张三的】,对应的说者模型(speaker model)【张三的声音模型】,判定声明是真还是假。【判断声音是张三的声音是对,还是不对】。

在GMM说者识别的最近工作中,一个振奋的领域是潜在因子分析(latent factor analysis)的使用,用来补偿说者差异(speaker variability)和通道差异(channel variability)。这些方法通过建模最大后验概率(Maximum a posterior)去调适【adapted】【调整模型去适应数据】一个GMM的多个均值,这个GMM使用潜在因子来描述差异。【去补偿的说者差异和通道差异】。这个途径的关键方法是要使用一个GMM超参(supervector),GMM超参由堆(stacked)起来的混合组份(mixture components【高斯混合模型里的多个高斯分布】)的均值(means)【高斯分布有均值 mean (分布的中心,值的平均值)和 方差variance(各个值距离这个分布中心的度量),各个值的概率就形成了一条钟型曲线】。这个GMM超向量可以被用来,通过本征音(eigenvoices)方法和本征通道(eigenchannels)方法分别标志性(characterize)的表示说者和通道。

SVM已经证明是一个新颖有效的方法,用于说者识别。SVM进行一个非线性映射(nonlinear maaping)【映射关系的导数不为常量】,从输入空间(input space)【输入向量组成的空间】映射到一个SVM特征空间(feature space)【特征向量组成的空间】。线性分类(linear classification)技术然后被应用到这个可能的高维空间。在SVM中主要的设计部分是核(kernel),就是在SVM特征空间中的内积(inner product【结果是标量】)。因为内积(inner products)导出(induce)距离指标(distance metrics)反之亦然【距离指标想到内积】,在SVM核设计中的基础目标是 在SVM特征空间中 找到一个合适的指标,关联到分类问题。

本文中,我们合并在SVM方法中的最新成果,使用GMM超向量的概念。我们展示两个 找到GMM超向量【每个超向量代表一个GMM】之间的距离的自然的方法(natural method)。一个方法是基于两个GMM模型之间的KL散度(KL divergence)【一个分布对另一个分布,离开的程度】的近似(approximation),另一个模型是基于一个翻译-Support Vector Machines using GMM Supervectors for Speaker Verification函数空间内积【向量空间的2范距离,欧式距离,平方和开根号】。这些距离都满足Mercer条件,这是在SVM优化(optimization)中典型需要的条件。【优化就是调整参数,分类的更好】

本章的条目如下:第II节,描述SVM的基础框架。第III节,列出GMM超向量表达(expansion)。第IV节和V节描述两个SVM说者校验的核。最后,在第VI节,我们证明这个方式的惊人潜能,通过应用它到NIST说者识别评估(SRE)2005年任务,并和一个标准的GMM方式比较。【有没有超向量】

II、支持向量机

一个支持向量机是分两个类的分类结构,根据的是核函数(kernel function),核函数翻译-Support Vector Machines using GMM Supervectors for Speaker Verification【使用两个参数】,

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification           (1)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification是理想输出(ideal outputs),翻译-Support Vector Machines using GMM Supervectors for Speaker Verification【N维度空间,每一个维度的输出权重化的求和为0,权重都大于0,d是偏移值】向量翻译-Support Vector Machines using GMM Supervectors for Speaker Verification支持向量(support vectors)【分界边缘上的向量叫做支持向量】,通过优化过程,从训练集合(training set)中获得。理想输出要么是1 要么是-1,依赖于相应的支持向量是在类别0里面还是在类别1里面。作为一个分类器(calssification),类判定(class decision)基于翻译-Support Vector Machines using GMM Supervectors for Speaker Verification这个值,是高于还小于一个阈值(threshold)【划分标准值】。

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification被限制为有特定的属性(properties)(Mercer 条件)【满足这个条件的核函数,计算核函数的值,就等同于把参数(两个低维向量)分别用翻译-Support Vector Machines using GMM Supervectors for Speaker Verification函数映射高维空间中后,求两个高维向量的内积值。】

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification           (2)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification就是从输入空间(x的空间)【低维空间】到一个可能无穷维度(possibly infinite dimensional)空间的映射。核被要求是半正定(positive semi-definite)【提高维度的过程就是矩阵变换,矩阵变换能改变向量的维度,向量经过变换后还在所有维度都是正的空间里面叫半正定矩阵】。这样Mercer条件就满足了,确保边缘概念有效(margin concept),SVM的优化有边界(bounded)【能区分开,有边,但是可以有很多种情况都是满足能把两个数据集划分开的】

优化条件依赖于最大边缘概念(maximum margin concept)。对一个可分的数据集合,系统放置一个超平面(hyperplane)在高维空间中,这样超平面有最大边缘(maximum margin)【超平面距离所有的空间点的距离最大,这样表示超平面划分的最精准。】。来自训练集合的数据点(data points)【数据向量在数据向量空间中的点】位于边界(boundaries)上,就是公式(1)中的支持向量【支持向量在低维空间中体现为,能把输入的数据向量,对自己运算后得到一个这个值经过权重和偏移值后,这个值继续计算得到的函数值翻译-Support Vector Machines using GMM Supervectors for Speaker Verification(用于放到1和-1之间考察)。这个值代表的是高维空间中位于超平面一侧,距离超平面最近的点,起到把空间分两半的支撑作用。】。SVM训练过程的焦点就是要建立两个分类之间的边界的模型。

III.GMM 超参

假设我们有一个高斯混合模型统一背景模型(GMM UBM)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification      (3)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification是混合权重,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification()是一个高斯分布,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification是均值(mean)和协方差(covariance)【矩阵上每一项都是一个维度上的协方差值,也就是每一个维度上的离开程度】。我们假设对角线协方差(diagonal covariances )翻译-Support Vector Machines using GMM Supervectors for Speaker Verification

给定一个说者语声(speaker utterance),GMM UBM训练通过MAP均值的适配(adaptation)翻译-Support Vector Machines using GMM Supervectors for Speaker Verification被执行。从这个适配模型中,我们形成了一个GMM超向量。这个过程图如下:

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification

【说话的人的语音被分解为2048个高斯分布表征的分布,每个高斯分布取其均值,就成为一个包含这个人语音特征均值的向量】

这个GMM超向量能比认为是一个映射,在语声和一个高维度向量之间。这个概念和SVM序列核(sequence kernel)的思想一致。序列核的基础概念是比较两个语音语声,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification,直接使用核,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification。核可以被写作翻译-Support Vector Machines using GMM Supervectors for Speaker Verification,因为Mercer条件的存在。【两个语声的核升维向量的内积】。GMM超向量映射就是翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification的映射的部分。【因为取的是分布的期望,也就是很多翻译-Support Vector Machines using GMM Supervectors for Speaker Verification对应到一个mean】。对于线性内核(linear kernel)的情况,映射

IV. GMM超参线性核(Supervector linear kernel)

假设我们有两个语声,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification。我们训练GMMs在两个语声上,使用MAP适配。,取得翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification,【取得个高斯混合模型】,两个语声的自然的距离是KL散度

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification     (4)

【x表示特征空间中的任意取值】

不幸的是,KL散度不满足Mercer条件,所以使用它在SVM中是困难的(尽管有可能)

不直接使用散度,我们考虑一个近似(approximation)。思想是使用对数求和不等式为散度划边界。

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification     (5)

我们已经通过翻译-Support Vector Machines using GMM Supervectors for Speaker Verification呈现了调试的均值。假设对角线协方差,对应的接近被计算为最近的格式

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification     (6)

【协方差表示某个维度上离散的程度】

最终的不等式为

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification        (7)

从这里我们看到如果两个均值向量的距离很小,对应的散度也小。距离的衡量有用的属性是对称的。6中的距离被成功使用在说者聚类应用(speaker clustering applications)。从6中的距离,我们能找到相应的内积,是核函数。

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification                        (8)

在8中的核是一个线性的包含简单的GMM超向量的对角线缩放。注意因为他是线性的,它满足Mercer条件。

使用8中的核的方便的方面是 我们能使用模型压缩技术(compaction )。那就是

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification   (9)

w是9括号中的量。这意味着我们仅仅要计算目标模型和GMM超向量之间的单个内积来获得一个分数。

V GMM L2 内积核

我们第二个GMM超参数核是收到启发来自,函数空间内积的使用。假设,再一次,我们有两个语声,翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification。我们训练GMMs,使用MAP适配获得到翻译-Support Vector Machines using GMM Supervectors for Speaker Verification翻译-Support Vector Machines using GMM Supervectors for Speaker Verification。【得到两个高斯模型)。在函数空间的标准内积

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification     (10)

【X表示任意的变量】

在10中的积分有封闭形式解【有解析解】被找到。使用GMM公式 ,

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification         (11)

所有0的向量是0.因为每一个项在求和中的都是核,核的总和也是核,那么11式子就是核。

方便的接近到11的是假设 从不同混合组份的均值都是远离的。这让翻译-Support Vector Machines using GMM Supervectors for Speaker Verification的项在11中很小。结果的核是

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification   (12)

 

 

相关文章: