多标签分类：A Tutoria on Multi-Labl Learning(2015)

一、Introduction

签数据通常具有高维性、不平衡的数据，以及标签之间的依赖关系。
多标签学习是一种监督的学习方法。

二、Multi-Label Learning

1、MLL Settings

①标签集是预定义的、有意义的、可人工解释的。

②标签数量范围有限，不大于属性数量。

③每个训练实例都与标签集的多个标签相关联。

④属性数量可能很大，但在这些情况下可以采用属性约简策略。

⑤实例数量可能很多。

⑥+标签之间可能存在相关性。
例如，图1在一个图中显示了多标签数据集最常用的10个标签，即所谓的imdb Read 2010。该数据集包含了来自imdb数据库的120,919个电影情节文本摘要，有28个标签对应于类型(如喜剧、动作等)。节点厚度表示标签的先验概率，边缘厚度表示链接的两个标签同时出现。研究发现，谈话类节目与战争类节目之间并无关联，而其他类型的节目与战争类节目之间存在着不同强度的关系，例如，行动类节目与犯罪类节目之间的关联大于悬疑类节目与黑色电影之间的关联。这些标签之间的关系代表了额外的知识，可以探索，以促进学习过程。
多标签分类：A Tutoria on Multi-Labl Learning(2015)
（上图：IMDB数据集中标签的共现图）

⑦+数据可能不平衡。
一方面，如果考虑到每个特定的标签，属于某个标签的模式的数量可能会超过其他标签(类间)。例如，图1显示喜剧比黑色电影更常见。此外，每个类的正反示例的比例可能是不平衡的(内部或内部类)。另一方面，标签倾斜可以定义为与最常见的标签集相关联的例子相对较多，而与不常见的标签集相关联的例子相对较多。图2表示每个标签集的例子数量和不平衡比率(IR)，表明该例子的数据集显然是不平衡的。对于每个标签集，IR被计算为最常用标签集的大小与标签集的大小之间的商。
多标签分类：A Tutoria on Multi-Labl Learning(2015)
（上图：IMDB数据集中每个标签集的不平衡比率（IR）的示例）

注：⑥⑦两个设置与数据高维性有关

2、A Formal Definition of MLL

单标签和多标签数据集对比示例：
多标签分类：A Tutoria on Multi-Labl Learning(2015)

MLL包含两个主要的任务：多标签分类（MLC）和标签排序（LR）。
最后，第三个MLL任务，称为多标签排序，可以看作是MLC和LR的推广，同时产生一个二分区和一个一致的排名。

三、Evaluation of Multi-Label Models

1、Evaluation Metrics

评价指标：分为（1）评估双分区指标和（2）评估排名指标

（1）评估双分区的度量标准

a、基于标签的指标：宏平均/微平均

宏平均的分数给予每个类别相同的权重，而不管其频率(每个类别平均)，并且更受罕见类别的性能影响。另一方面，微观平均的分数对每个例子(每个例子的平均)给予同等的权重，并且往往被大多数常见类别的表现所主导。

b、实例/基于实例指标：

①0/1 subset accuracy(0/1子集的准确性)
②Hamming Loss(汉明损失)
③Recall(召回率)
④Precision(准确率)
⑤Accuracy(正确率)
⑥F1-score(F1值)

（2）评估排名的度量标准

(本文中详细描述的所有度量也可以被认为是基于示例的度量，因为它们首先是为每个测试示例计算的，然后是跨测试集的平均值。)

①One-error(度量的是排名第一的品牌有多少次不在可能的品牌集中)
②Coverage(度量排序中的平均深度，以便覆盖与实例关联的所有标签)
③Ranking Loss(评估的是对该实例中排序错误的唱片公司的平均排名)
④Average Precision(Coverage和One-error并不是MLL的完整度量标准，因为在具有较高的一个错误值时，可能具有良好的覆盖率)
⑤Margin Loss(度量返回的正向最坏排名和负向最好排名之间的位置数量)
⑥IsError(如果排名是完美的，isError返回0；否则不管排名有多么错误，返回1)
⑦Ranking Error(返回预测和真实排名中每个标签位置差异的平方的标准化和)

2、Complexity

标签空间的高维性可能在两方面挑战MLL方法的效率：
一方面，训练多标签分类器的计算成本可能受到标签数量的影响。其次，分类阶段也会受到分类器数量的影响，会非常耗时，尤其是在标签数量较多的分类问题中。
另一个需要考虑的与高维有关的重要因素是内存需求。

四、Multi-Label Learning Methods

Tsoumakas等人提出分类法，该分类法区分了解决MLL问题的两种主要方法:问题转换方法和算法适应方法。前者将多标签问题转换为一个或多个单标签问题，这些单标签问题由单标签分类算法来解决，而后者由扩展单标签算法来直接处理多标签数据组成。值得注意的是，问题转换方法是独立于算法的。图3给出了本文中描述的建议的分类。
多标签分类：A Tutoria on Multi-Labl Learning(2015)

1、Problem Transformation Methods（问题转换方法）

1、Ranking Via Single-Label Learning Methods(RSL)
通过单标签学习方法进行排名

这种通过单标签学习(SLR)进行排序的方法将多标签数据集转换为单标签数据集，然后使用单标签分类器，该分类器能够为每个标签生成得分(例如概率)，从而获得排序。因此，概率最大的标签会被排在第一位，依此类推。

2、Binary Relevance Methods(BR)
二元关系的方法

二进制相关性(BR)方法生成一个二进制数据集对于每个标签的积极模式预测的标签,和其他被认为是消极的模式。一旦一个未知模式呈现给模型,输出预测将会是积极的集合类。

缺点：
①BR假设标签是独立的，因此它忽略了标签之间的相关性和相互依赖，这并不总是正确的。
②BR变换后可能出现的样本不平衡问题。它导致从数据集中归纳出二进制分类器，其中负面例子往往多于正面例子。
③与标签的高维性有关，这可能会增加样本的不平衡，也会增加需要训练的分类器的数量。
（BR是简单和可逆的（原始数据集可以恢复））

优点：
①它具有较低的计算复杂度，BR随标签数量线性伸缩。
②由于标签是独立的，它们可以添加和删除，而不会影响模型的其余部分。这使得它适用于演进或动态场景，并提供了并行实现的机会。

3、Label Powerset Methods(LP)

①Label Powerset approach

Label Powerset(LP)的方法,也称为标签组合(LC)。为每个可能的组合生成一个新类的标签,然后解决问题作为一个单标牌多级一个。当一个新的未知实例,LP输出类,它实际上是一组原始数据集的标签。该方法简单有效，能够对训练数据中的标签相关性进行建模。然而，在转换之后，许多新类(不太频繁的组合)的训练示例可能有限，从而导致样本不平衡。此外，这种方法只考虑训练集中不同的标签集，所以它不能预测看不见的标签集，这也可能导致过度拟合训练数据的倾向。最后，另一个问题是可能需要处理的大量类。这个数字的上界是最小值(m, 2q);因此，在最坏的情况下，复杂性是与标签数量成指数关系的。这就是为什么LP通常在原始标签集很小的情况下工作的很好，但对于较大的标签集会很快恶化。

②Random k-labELseys method(RAkEL)

随机k-labELsets方法(RAkEL)构建了LP分类器的集成。每个分类器都使用k个标签的随机子集进行训练。因此，RAkEL作为LP能够处理标签之间的相关性，但在标签数量较多的情况下，避免了LP涉及到计算成本和类不平衡的问题。此外，它还可以预测不可见的标签集。在分类过程中，当出现未知实例时，对每个标签的分类器响应进行平均;然后，使用阈值来分配标签集。实验结果表明，RAkEL较BR和LP有明显改善。然而，每次k增加一倍，它的构建时间大约增加10倍。

③Pruned Problem Transformation(PPT)

剪枝问题转换(Pruned Problem Transformation, PPT)或剪枝集(Pruned Sets, PS)在扩展LP转换的同时，通过剪枝标签集较少的示例(在用户定义的阈值下)，试图避免与复杂性和不平衡数据相关的问题。通过关注最重要的标签组合，减少了复杂性。为了弥补这种信息损失，它重新引入了修剪的例子，将修剪后的标签集的输出不相交子集视为确实存在于阈值以上的子集。剪枝集(EPS)算法通过对训练集(即,引导)。给定一个新实例，通过投票模式和允许EPS形成新标签组合的阈值来获得最终响应。实验结果表明，在集成方案中，PS表现最好，而EPS优于LP和RAkEL，在效率方面更具竞争力。

4、Pairwise Methods(PW)

①Ranking by Pairwise Comparison(RPC)

两两比较的排名(RPC)方法将与q类数据集转换成q(q−1)/2二进制数据集,每个每一对一个标签和一个二进制分类器为每个数据集构建。每个数据集,λi vs λj,包含模式标签至少有两个标签之一,但不是两个,一个真正的模式如果λi真假否则。这种方法类似于One-Versus-One(OVO)方法对多类问题。给定一个新实例，将调用所有模型，并通过计算每个标签的投票来获得排名。主要的缺点是空间复杂性和需要在运行时查询所有生成的(q²)二进制模型。Read等认为，这种标签数量的二次复杂度使得RPC对大q非常敏感，对于大问题通常难以处理。

②Calibrated Label Ranking(CLR)

校准标签排名(CLR) 扩展RPC通过额外的虚拟或校准标签,λ0。因此，最终的排名将包括虚拟标签，可以将其解释为相关标签和非相关标签的分裂点，以获得一致的排名和双分区。转换是由增加RPC变换一个新的数据集对于每个标签,λi,一对λi vs λ0对应。每个新数据集使用所有示例;所以,当标签λi是真的,虚拟标签被认为是虚假的,反之亦然(如BR转换)。实验领域的文本分类和基因分析得出结论,CLR优于BR方法。然而，模型的空间复杂度与RPC相似，但需要查询q²+q二进制模型。Madjarov等和Loza等提出了降低投票过程复杂性的替代方案。

5、Transformations for Identifying Label Dependences

①Classifier Chains(CC)

分类器链(CC)模型生成q二元分类器,但他们是联系在一起的特征空间,整个产业链上的每一个环节都与以前所有链接的标签关联扩展。因此,CC克服BR的标签独立假设,也克服了最坏的计算复杂度的LP(指数与标签的数量)。一方面，当标签相互独立时，CC的功能与BR相似，而另一方面，由于标签相关关系的存在——尽管不是最优的——它的功能与LP类似。由于链的顺序本身会影响性能，因此作者提出使用一个分类器链集合(ECC)来训练一组具有随机链序和随机训练模式子集的CC分类器。每个标签的投票总和被计算并标准化，分类器的输出是那些超过阈值的标签。

2、Algorithm Adaptation Methods（算法适应方法）

1、Decision Trees(决策树)

决策树方法由于其输出的可解释性和层次性而被广泛应用于基因组学领域和集成设置。值得一提的是ML-C4.5，它是克莱尔和金(2001)对流行的C4.5(昆兰1993)的改编。允许树的叶子上有多个标签，并且熵的定义被调整，以考虑描述某个模式所属的类需要多少信息。鉴于q类,不仅成员的概率p(λ)被认为是,但也不是成员的概率,1−p(λ)。这些概率是用相对频率来测量的。当算法检查修剪一个分支并用叶子替换它是否更好时，会发现分支中最频繁的类集(而不是最好的单个类)，并确定这组类中有多少项。预测聚类树(PCT)将决策树看作是一个集群的层次结构，其中数据通过最小化方差以自顶向下的策略进行分区。叶子代表集群，并被标记为集群的原型(预测)。与标准决策树不同，方差和原型函数被视为参数。特别是在MLL中，方差函数被计算为目标元组变量的基尼系数(Gini index, Breiman et al. 1984)之和，原型函数返回一个带有每个标签概率的向量(Madjarov et al. 2012)。该方法作为随机森林集合的基础分类器获得了具有竞争力的性能。PCTs也被用于分层多标签学习[Vens等人2008]。

2、Support Vector Machines(支持向量机)

支持向量机。单标牌支持向量机(svm)已经广泛应用于MLL通过应用一个OVA方法，并采用了算法自适应的方法。Elisseeff和Weston[2001]提出了一种基于SVM排序的算法，称为Rank-SVM，该算法利用支持向量机提高了BR的性能。一组问线性分类器,{hj (x) = wj x + bj = wTj j·x + bj | 1≤≤q},每个与权向量,wj,和偏见,bj,定义。利用二次规划的对偶形式和处理非线性的核心技巧，对其进行优化，使经验排序损失最小化。

3、Instance-based Algorithms(基于实例的算法)

基于实例的算法。据我们所知，第一个多标签延迟学习算法是Zhang和Zhou[2005]提出的多标签k近邻(multi - label k-nearest neighbour, ML-kNN)算法。Cheng和H¨ullermeier[2009]提出了基于实例的学习通过逻辑回归(IBLR),这种方法结合了基于实例的学习(IBL)和逻辑回归。关键思想是将相邻实例的标签作为不可见样本的特征，并将IBL简化为逻辑回归。这种方法能够捕获标签之间的相互依赖关系;这些相互依赖关系通过回归系数的符号和大小来反映，从而改善了ML-kNN。实验表明，IBLR优于LP、MLkNN和BR作为基分类器的预测精度。最后，Spyromitros等[2008]将BRkNN描述为等价于使用BR和kNN作为基分类器，但速度快得多，因为它不需要计算q乘以k个最近的邻居，只搜索k个最近的邻居一次。

4、Neural Networks(神经网络)

神经网络。Crammer and Singer[2003]提出了多标签多类感知器(Multilabel Multiclass Perceptron, MMP)算法。就像在BR中，每个标签使用一个感知器，预测是通过内积来计算的。然而，MMP并不是独立学习每门课程的相关性，而是通过增量训练来产生一个实值关联分数，将相关标签排列在无关标签之上。因此，整个集成的性能被认为是更新每个感知器。研究已经证明它是有效的竞争力,适合求解大规模multilabel问题[Loza和F¨urnkranz 2007]。
后来，Zhang和Zhou[2006]开发了多标签学习的反向传播(BP-MLL)，这是对传统多层前馈神经网络对多标签数据的一种改进。网络与梯度后裔和误差反向传播训练误差函数密切相关排名的损失考虑multilabel数据。网络架构有三层。输入层由d个单元组成，每个单元对应于输入空间中的一维。输出层有q个单元，其输出将用于标签排序(即，属于实例的标签的排名应该高于不属于实例的标签)。隐藏层使用权重与输入层和输出层完全连接。实验结果表明，该算法在基因组学和文本分类领域具有较强的竞争力，计算成本根据神经网络方法计算。
最后，Zhang[2009]提出了多标签径向基函数(multi - label径向基Function, ML-RBF)，这是一种受著名RBF方法启发的方法。输入对应于一个多维特征向量。它由两层神经元组成:在第一层，每个隐藏的神经元(基函数)与一个原型向量相关联，而每个输出神经元对应一个可能的标签。该网络采用两阶段程序进行训练。首先，通过对每个可能类的实例进行k均值聚类(也可以使用其他聚类算法)来学习隐含层中的基函数。因此，聚类群的质心构成第一层基函数的原型向量(原型向量的q集合)。然后通过最小化平方和误差函数优化第二层的权值。值得注意的是，每个输出神经元都与所有可能类的原型向量对应的所有基函数相连接。因此，标签之间的相关性在培训和测试中都得到了解决。

5、Generative and Probabilistic Models(生成模型和概率模型)

生成模型和概率模型。多标签文档分类的许多方法主要依赖于判别建模技术;然而，一些生成模型也被设计出来。McCallum[1999]提出了文本分类的概率生成模型。随后，Ueda和Saito [2002a]提出了两种概率生成参数混合模型PMM1和PMM2。PMMs的基本假设是，多标记文本中出现的特征词混合出现在单标记文本中，这些特征词属于多分类中的每个类别。由于所描述的生成模型基于文档中的文本频率，因此它们是特定于文本域的。Ghamrawi和McCallum[2005]提出了条件随机字段(CRFs)的使用，使用两个多标签图形模型进行分类，参数化标签共现，Shotton et al.[2009]也使用CRFs合并不同的低层图像特征。最后，Zhang等[2009]提出了一种多标签朴素贝叶斯(Multilabel Naive Bayes,MLNB)方法。它采用NB分类器，利用贝叶斯规则处理多标签实例，并假设特征之间具有类条件独立性(作为经典朴素贝叶斯)，给定一个测试实例x，对映射估计的计算如下式所示。特性变量条件在类的密度值遵循一个高斯分布。

6、Associative Classification(关联分类)

关联分类。关联分类集成了关联规则挖掘和分类。首先扫描训练数据，通过关联规则挖掘发现并生成一组初始的分类规则。接下来，迭代过程从剩余的非分类实例中学习规则，直到不再留下更多的频繁项。生成的规则只有一个结果(一个标签)。最后，将导出的规则集合并成一个多标签分类器。在满足前件的训练模式中，对具有相同前件但不同后件的规则，根据其出现的频率进行排序标签合并。

7、Evolutionary Approaches(进化方法)

进化方法。生物启发方法也被用于解决多标签问题。据我们所知，第一个是由Chan和Freitas[2006]提出的，名为Multilabel miner (MuLAM)。这是蚁群挖掘算法的一种扩展[Parpinelli et al. 2002]。规则表示允许在规则结果中有多个预测类，每个ant都能够发现一组规则:每个类至少有一个规则，最多有一个规则。GEP-MLC,进化论的发现提出了判别函数方法。随后,同样的作者提出了GC,另一种进化的方法使用一个模型来构建分类规则更可判断的判别函数。两项建议都取得了与MLL最先进技术相媲美的成果。

8、Ensembles(集合体)

集合体。Schapire和Singer[1999, 2000]在流行的AdaBoost [Freund and Schapire 1997]中提出了一套适用于多标签情况的文本分类增强算法，即AdaBoost。MH是为了减少汉明的损失，保持一组重量，不仅超过训练的例子，而且超过标签。在训练过程中，增加了与标签相关的权重，增加了样本分类的难度。

五、Trending Challenges

多标签学习发展趋势：

①降低维数（Dimensionality Reduction）

②标签依赖（Label Dependence）

③积极学习（Active Learning）

④多实例多标签学习（Multi-instance Multilabel Learning，MIML）

⑤多视图学习（Multiview Learning）

⑥多任务学习(Multitask Learning，MTL)

⑦分层多标签分类（Hierarchical multilabel classification，HMC）

六、Appendix

Review(综述)、Bibliographic compilations(书目汇编)、Tutorials(教程)、Workshops(研讨会)、Special Issues and Books(专题和书籍)、PHD Theses(博士论文)
多标签分类：A Tutoria on Multi-Labl Learning(2015)