翻译-Support Vector Machines using GMM Supervectors for Speaker Verification

Support Vector Machines using GMM Supervectors for Speaker Verification

W. M. Campbell, D. E. Sturim, D. A. Reynolds MIT Lincoln Laboratory
244 Wood Street
Lexington, MA 02420 Corresponding author e-mail: [email protected] Phone: 781-981-1061

EDICS Category: SPE-SPKR

高斯混合模型Gaussian mixture models(GMMs)已经证明了在文本无关（text-independent）的说者识别（speaker recognition）上极为成功。高斯混合模型（GMMs）的标准训练方法是使用基于来自目标说者（target speaker）【识别对象】的语音（speach）的混合【模型】的组成部分（mixture components）【很多的高斯分布】的各个均值（means）的最大后验概率（maximum a posterior MAP）适应（adaptation）【用MAP方法来调整什么就叫做去适应什么】。最近在说者（speaker）差异（variability）【不同人说话的差异】和通道（channel）差异（variability）【人在不同说话环境的差异】上的补偿（compensation）方法已经提出了一个想法：堆栈（stacking）【垒起来】GMM模型的多个均值来形成一个高斯混合模型均值超向量（GMM mean supervector）。我们试验了这个想法，在一个支持向量机（Support vector machine）分类器（classifier）中，使用GMM超向量。我们提出了两个新的SVM核（kernels【用低维度下两个量的关系的描述值，能够表示两个值映射到高维度后之间的关系的描述值】），基于多个GMM模型之间的距离衡量指标（distance metrics）。我们展示了这些SVM的核产生了极好的分类精度，在美国国家标准与技术研究院（National Institute of Standards and Technology NIST）说者识别评估（speaker recognition evaluation SRE）任务中。

1、介绍

我们考虑内容无关（text-independent）说者校验（speaker verification）问题【说什么不考虑，只考虑声音】。那就是，给出测试语声（test utterance）【测试模型用的或者说校验用的】，身份声明（claim of identity）【声音是张三的】，对应的说者模型（speaker model）【张三的声音模型】，判定声明是真还是假。【判断声音是张三的声音是对，还是不对】。

在GMM说者识别的最近工作中，一个振奋的领域是潜在因子分析（latent factor analysis）的使用，用来补偿说者差异（speaker variability）和通道差异（channel variability）。这些方法通过建模最大后验概率（Maximum a posterior）去调适【adapted】【调整模型去适应数据】一个GMM的多个均值，这个GMM使用潜在因子来描述差异。【去补偿的说者差异和通道差异】。这个途径的关键方法是要使用一个GMM超参（supervector），GMM超参由堆（stacked）起来的混合组份（mixture components【高斯混合模型里的多个高斯分布】）的均值（means）【高斯分布有均值 mean （分布的中心，值的平均值）和方差variance（各个值距离这个分布中心的度量），各个值的概率就形成了一条钟型曲线】。这个GMM超向量可以被用来，通过本征音（eigenvoices）方法和本征通道（eigenchannels）方法分别标志性（characterize）的表示说者和通道。

SVM已经证明是一个新颖有效的方法，用于说者识别。SVM进行一个非线性映射（nonlinear maaping）【映射关系的导数不为常量】，从输入空间（input space）【输入向量组成的空间】映射到一个SVM特征空间（feature space）【特征向量组成的空间】。线性分类（linear classification）技术然后被应用到这个可能的高维空间。在SVM中主要的设计部分是核（kernel），就是在SVM特征空间中的内积（inner product【结果是标量】）。因为内积（inner products）导出（induce）距离指标（distance metrics）反之亦然【距离指标想到内积】，在SVM核设计中的基础目标是在SVM特征空间中找到一个合适的指标，关联到分类问题。

本文中，我们合并在SVM方法中的最新成果，使用GMM超向量的概念。我们展示两个找到GMM超向量【每个超向量代表一个GMM】之间的距离的自然的方法（natural method）。一个方法是基于两个GMM模型之间的KL散度（KL divergence）【一个分布对另一个分布，离开的程度】的近似（approximation），另一个模型是基于一个翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 函数空间内积【向量空间的2范距离，欧式距离，平方和开根号】。这些距离都满足Mercer条件，这是在SVM优化（optimization）中典型需要的条件。【优化就是调整参数，分类的更好】

本章的条目如下：第II节，描述SVM的基础框架。第III节，列出GMM超向量表达（expansion）。第IV节和V节描述两个SVM说者校验的核。最后，在第VI节，我们证明这个方式的惊人潜能，通过应用它到NIST说者识别评估（SRE）2005年任务，并和一个标准的GMM方式比较。【有没有超向量】

II、支持向量机

一个支持向量机是分两个类的分类结构，根据的是核函数（kernel function），核函数翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 【使用两个参数】，

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (1)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 是理想输出（ideal outputs），【N维度空间，每一个维度的输出权重化的求和为0，权重都大于0，d是偏移值】向量是支持向量（support vectors）【分界边缘上的向量叫做支持向量】，通过优化过程，从训练集合（training set）中获得。理想输出要么是1 要么是-1，依赖于相应的支持向量是在类别0里面还是在类别1里面。作为一个分类器（calssification），类判定（class decision）基于翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 这个值，是高于还小于一个阈值（threshold）【划分标准值】。

核翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 被限制为有特定的属性（properties）（Mercer 条件）【满足这个条件的核函数，计算核函数的值，就等同于把参数（两个低维向量）分别用函数映射高维空间中后，求两个高维向量的内积值。】

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (2)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 就是从输入空间（x的空间）【低维空间】到一个可能无穷维度（possibly infinite dimensional）空间的映射。核被要求是半正定（positive semi-definite）【提高维度的过程就是矩阵变换，矩阵变换能改变向量的维度，向量经过变换后还在所有维度都是正的空间里面叫半正定矩阵】。这样Mercer条件就满足了，确保边缘概念有效（margin concept），SVM的优化有边界（bounded）【能区分开，有边，但是可以有很多种情况都是满足能把两个数据集划分开的】

优化条件依赖于最大边缘概念（maximum margin concept）。对一个可分的数据集合，系统放置一个超平面（hyperplane）在高维空间中，这样超平面有最大边缘（maximum margin）【超平面距离所有的空间点的距离最大，这样表示超平面划分的最精准。】。来自训练集合的数据点（data points）【数据向量在数据向量空间中的点】位于边界（boundaries）上，就是公式（1）中的支持向量【支持向量在低维空间中体现为，能把输入的数据向量，对自己运算后得到一个值。这个值经过权重和偏移值后，这个值继续计算得到的函数值翻译-Support Vector Machines using GMM Supervectors for Speaker Verification （用于放到1和-1之间考察）。这个值代表的是高维空间中位于超平面一侧，距离超平面最近的点，起到把空间分两半的支撑作用。】。SVM训练过程的焦点就是要建立两个分类之间的边界的模型。

III.GMM 超参

假设我们有一个高斯混合模型统一背景模型（GMM UBM）

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (3)

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 是混合权重，（）是一个高斯分布，和是均值（mean）和协方差（covariance）【矩阵上每一项都是一个维度上的协方差值，也就是每一个维度上的离开程度】。我们假设对角线协方差（diagonal covariances ）翻译-Support Vector Machines using GMM Supervectors for Speaker Verification

给定一个说者语声（speaker utterance），GMM UBM训练通过MAP均值的适配（adaptation）翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 被执行。从这个适配模型中，我们形成了一个GMM超向量。这个过程图如下：

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification

【说话的人的语音被分解为2048个高斯分布表征的分布，每个高斯分布取其均值，就成为一个包含这个人语音特征均值的向量】

这个GMM超向量能比认为是一个映射，在语声和一个高维度向量之间。这个概念和SVM序列核（sequence kernel）的思想一致。序列核的基础概念是比较两个语音语声，翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 和，直接使用核，。核可以被写作，因为Mercer条件的存在。【两个语声的核升维向量的内积】。GMM超向量映射就是到的映射的部分。【因为取的是分布的期望，也就是很多翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 对应到一个mean】。对于线性内核（linear kernel）的情况，映射

IV. GMM超参线性核（Supervector linear kernel）

假设我们有两个语声，翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 和。我们训练GMMs在两个语声上，使用MAP适配。，取得和，【取得个高斯混合模型】，两个语声的自然的距离是KL散度

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (4)

【x表示特征空间中的任意取值】

不幸的是，KL散度不满足Mercer条件，所以使用它在SVM中是困难的（尽管有可能）

不直接使用散度，我们考虑一个近似（approximation）。思想是使用对数求和不等式为散度划边界。

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (5)

我们已经通过翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 呈现了调试的均值。假设对角线协方差，对应的接近被计算为最近的格式

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (6)

【协方差表示某个维度上离散的程度】

最终的不等式为

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (7)

从这里我们看到如果两个均值向量的距离很小，对应的散度也小。距离的衡量有用的属性是对称的。6中的距离被成功使用在说者聚类应用（speaker clustering applications）。从6中的距离，我们能找到相应的内积，是核函数。

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (8)

在8中的核是一个线性的包含简单的GMM超向量的对角线缩放。注意因为他是线性的，它满足Mercer条件。

使用8中的核的方便的方面是我们能使用模型压缩技术（compaction ）。那就是

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (9)

w是9括号中的量。这意味着我们仅仅要计算目标模型和GMM超向量之间的单个内积来获得一个分数。

V GMM L2 内积核

我们第二个GMM超参数核是收到启发来自，函数空间内积的使用。假设，再一次，我们有两个语声，翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 和。我们训练GMMs，使用MAP适配获得到和。【得到两个高斯模型）。在函数空间的标准内积

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (10)

【X表示任意的变量】

在10中的积分有封闭形式解【有解析解】被找到。使用GMM公式，

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (11)

所有0的向量是0.因为每一个项在求和中的都是核，核的总和也是核，那么11式子就是核。

方便的接近到11的是假设从不同混合组份的均值都是远离的。这让翻译-Support Vector Machines using GMM Supervectors for Speaker Verification 的项在11中很小。结果的核是

翻译-Support Vector Machines using GMM Supervectors for Speaker Verification (12)