多标签分类：A Review on Multi-Label Learning Algotithms(2014)

一、摘要

首先，多标签学习的基本原理包括形式定义(学习框架、关键挑战、阈值)和评价指标(基于实例、基于标签、理论结果)。

其次，主要对8种具有代表性的多标签学习算法进行了详细的分析。

第三，几个相关的学习设置简要总结。

二、介绍

实际上，从多标签数据中学习的关键挑战在于巨大的输出空间，标签集的数量随着类标签数量的增加呈指数增长。例如，对于包含20个类标签的标签空间（q=20），可能的标签集数量将超过100万个，（即2²⁰个）。为了应对指数级输出空间的挑战，必须利用标签之间的相关性（或依赖性）来促进学习过程。因此，有效利用标签相关性信息被认为是多标签学习技术成功的关键。

三、范例

现有标记相关性策略可以大致分为三大类：

1、一阶策略：（考虑的是label之间的相互独立）多标签学习任务采用label-by-label方式处理，从而忽略了其他标签的共存，例如将多标签学习问题分解为多个独立的二分类问题（每个标签一个）。一阶策略的突出优点在于概念简单、效率高。另一方面，由于对标签相关性的忽视，所得到的方法的有效性可能不是最优的。简单高效

2、二阶策略：（考虑label之间的两两相关性）通过考虑标签之间的成对关系，如相关标签与不相关标签之间的排序，来解决多标签学习的任务，或任意一对标签之间的相互作用等。由于二阶策略在一定程度上利用了标签相关性，所得到的方法具有较好的泛化性能。然而，在某些实际应用中，标签相关性超出了二阶假设。

3、高阶策略：（考虑多label之间的相关性）通过考虑标签之间的高阶关系来解决多标签学习的任务，例如将所有其他标签的影响施加到每个标签上,或寻址随机子集之间的联系标签,等。显然高阶策略比一阶和二阶策略具有较强的模型关联能力,而另一方面是计算更多的要求和更少的可伸缩性。效果最优

主要的多标签评价指标总结：
多标签分类：A Review on Multi-Label Learning Algotithms(2014)

（1）基于实例：

六个基本样本分类指标

①子集的准确率(Subset Accuracy)
衡量正确率，预测的样本集和真实的样本集完全一样才算正确。

②汉明损失(Hamming Loss)
衡量的是错分的标签比例，正确标签没有被预测以及错误标签被预测的标签占比。

③Accuracy(准确率)、Precision(正确率)、Recall(召回率)、F值

④One-error
度量的是：“预测到的最相关的标签” 不在 “真实标签”中的样本占比。值越小，表现越好。

⑤Coverage
度量的是：“排序好的标签列表”平均需要移动多少步，才能覆盖真实的相关标签集。

⑥Ranking Loss
度量的是：反序标签对的占比，也就是不相关标签比相关标签的相关性还要大的情况。

⑦Average Precision
度量的是：比特定标签更相关的那些标签的排名的占比。

（2）基于标签：

①宏平均：是先对每一个类统计指标值，然后对所有类求算术平均值

②微平均：对数据集中每一个实例不分类别进行统计建立全局混淆矩阵，然后计算相应指标。

四、学习方法

多标签分类：A Review on Multi-Label Learning Algotithms(2014)

1、问题转换方法

这类算法通过将多标签学习问题转换为其他成熟的学习场景来解决多标签学习问题。代表算法包括一阶方法二值相关性和高阶方法分类器链，将多标记学习的任务转换成二值的任务分类；secondorder校准标签的排名方法,将多标记学习的任务转换为标签排序问题；高阶方法随机k-labelsets,将多标记学习的任务转换成多分类问题。（总体来说，这类方法有考虑类标之间的联系，但是对于类标较多、数据量较大的数据集，这类方法的计算复杂度是一个很明显的缺陷）

（1）Binary Relevance（二值相关性）：该算法的基本思想是将多标签学习问题分解为q个独立的二值分类问题，其中每个二值分类问题对应于标签空间中的一个可能的标签。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:二值关联伪码如图3所示。它是一种一阶方法，分别为每个标签构建分类器，并为并行实现提供了自然的机会。二元关联最突出的优点在于它处理多标签数据的方式非常简单(步骤1-4)，这已经成为许多最先进的多标签学习技术的基础。另一方面，二值相关性完全忽略了标签之间的潜在相关性，当q较大，标签密度(即LDen(D))较低时，每个标签的二值分类器可能会出现类不平衡的问题。如图3所示,二进制相关性训练时的计算复杂度为O(q·FB(m,d))和测试时的计算复杂度为O(q·F′B(d))。

（2）Classifier Chains（分类器链）：该算法的基本思想是将多标签学习问题转化为二分类问题链，其中链中后续的二分类器是建立在前面的二分类器预测的基础上的。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:分类器链的伪码如图4所示。它是一种高阶方法，以一种随机的方式考虑标签之间的相关性。与二元关联相比，分类器链具有利用标签相关性的优点，但由于其链锁特性而失去了并行实现的机会。在训练阶段，分类器链增加了实例空间的额外特征，这些特征来自于地面真实标记。当B(如Naive Bayes)返回的模型能够产生后验概率时，另一种可能是将它们设置为分类器的概率输出，而不是保留额外的特征值为二值。如图4所示,分类器链的训练时的计算复杂度O(q·FB(m,d + q))和测试时的计算复杂度O(q·F′B(d + q))。

（3）Calibrated Label Ranking（标定标签排序）：该算法的基本思想是将多标签学习问题转化为标签排序问题，利用成对比较技术实现标签之间的排序。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:标定标签排序伪码如图5所示。它是一种二阶方法，为任何一对类标签构建分类器。与之前介绍的算法相比，采用one-vs-rest的方式构造二元分类器，标定标签排序采用one-vs-one的方式构造二元分类器(虚拟标签除外)，从而具有缓解类不平衡问题的负面影响的优点。另一方面,二元分类器由校准标签的数量排名从线性扩展到二次生长规模数量的类标签(q)。改进校准标签排名主要关注减少数量的二次分类器在测试阶段查询精确修剪修剪或近似。利用底层二元学习算法B的特性，如感知器的对偶表示，可以更有效地在训练阶段中归纳出二次分类器的数量。如图5所示,校准标签排名的训练计算复杂度O(q2·FB(m,d))和测试计算时间复杂度O(q2·F′B(d))。

（4）Random k-Labelsets（随机k标签集）：该算法的基本思想是将多标签学习问题转化为多类分类问题的集合，集合中的每个组件学习者都以Y的一个随机子集为目标，在这个子集上，由标签Powerset (LP)技术诱导出一个多类分类器。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:随机k-Labelsets伪码如图6所示。它是一种高阶方法，其中标签相关性的程度是由k标签集的大小控制的。除了使用k-labelset，另一种改进LP的方法是修剪D中出现小于预先指定的计数阈值的不同标签集。虽然随机k-Labelsets嵌入集成学习作为其固有的部分来修正LP的主要缺点，但是集成学习可以作为一种元级别策略，通过包含同质或异质成分多标签学习者来促进多标签学习。如图6所示,随机k-Labelsets训练的计算复杂度O (n·Fm(m, d, 2 k))和测试的计算复杂度O (n·m F′(d, 2 k))。

2、算法自适应方法

这类算法通过采用流行的学习技术直接处理多标签数据来解决多标签学习问题。具有代表性的算法有:一阶方法ML-kNN采用延迟学习技术，一阶方法ML-DT采用决策树技术，二阶方法Rank-SVM采用核技术，二阶方法CML采用信息论技术。

（1）Multi-Label k-Nearest Neighbor（ML-KNN/多标签-KNN）：该算法的基本思想是采用k近邻技术对多标签数据进行处理，利用最大后验(MAP)规则对邻居包含的标签信息进行推理进行预测。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:ML-kNN伪码如图7所示。这是一个一阶方法，它分别推理每个标签的相关性。ML-kNN具有继承惰性学习和贝叶斯推理的优点:a)对于每个不可见的实例，识别出不同的邻域，自适应调整决策边界;b)由于每个类标签的先验概率估计，可以大大缓解类不平衡问题。利用惰性学习处理多标签数据的方法还有很多，如将kNN与排序聚合结合，以标签特有的风格识别kNN，将kNN扩展到整个训练集。考虑到ML-kNN不知道如何利用标签相关性，已经提出了几个扩展，可以沿着这个方向为ML-kNN提供补丁。如图7所示，ML-kNN的训练计算复杂度为O(m2d + qmk)，测试计算复杂度为O(md + qk)。

（2）Multi-Label Decision Tree（ML-DT/多标签决策树）：该算法的基本思想是采用决策树技术处理多标签数据，利用基于多标签熵的信息增益准则递归构建决策树。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:ML-DT伪码如图8所示。在计算多标签熵时，它是一种假设标签独立性的一阶方法。ML-DT的一个显著优点是，它可以从多标签数据中高效地导出决策树模型。多标签决策树可能的改进包括采用修剪策略或集成学习技术。如图8所示，ML-DT的计算复杂度为训练的O(mdq)和测试的O(mq)。

（3）Ranking Support Vector Machine（Rank-SVM/排序支持向量机）：该算法的基本思想是采用最大边际策略处理多标签数据，对一组线性分类器进行优化，使经验排序损失最小化，能够处理核技巧为的非线性情况。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:秩支持向量机伪码如图9所示。这是一种二阶方法，它定义了相关的、不相关的标签对在超平面上的边界。支持向量机从内核中获益来处理非线性分类问题，并且可以实现更多的变体。首先，如所示，Eq.中考虑的经验排序损失可以被其他损失结构所替代，如hamming loss，它可以被转换为结构化输出分类的一般形式。其次，阈值化策略可以通过技术来实现，而不是使用堆叠式的过程。第三，为了避免核选择问题，可以使用多种核学习技术从多标签数据中学习。如图9所示，让FQP(a, b)表示具有a变量和b约束的QP求解器求解Eq.的时间复杂度，Rank-SVM的计算复杂度为O(FQP(dq + mq2,mq2) + q2(q + m))进行训练，O(dq)进行测试。

（4）Collective Multi-Label Classifier（CML/集合多标签分类器）：该算法的基本思想是采用最大熵原理处理多标签数据，将标签之间的相关性编码为结果分布必须满足的约束条件。
多标签分类：A Review on Multi-Label Learning Algotithms(2014)
备注:CML伪码如图10所示。这是一种二阶方法，通过K2中的约束来考虑每个标签对之间的相关性。CML研究的二阶相关比秩svm研究的二阶相关更普遍，因为秩svm[27]只考虑相关无关的标签对。另一方面，已有一些多标签生成模型，其目的是对联合概率分布p(x, y)进行建模。
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
具有代表性的多标签学习算法的综述
多标签分类：A Review on Multi-Label Learning Algotithms(2014)