Authors

Yi-Fan Yan , Sheng-Jun Huang

Motivation

多标签学习(multi-label learning,MLL)是一种实用而有效的学习框架,适用于语义复杂的对象,每个实例可以同时与多个类标签相关联。但当输出空间远远大于单标签学到的信息时,通常需要一个大的标签数据集来训练一个有效的MLL模型。此外,当有大量候选标签时,多标签对象的注释成本可能非常高。主动洗就是一个很好的突破口,但是很多method没有关注label之间的correlation,特别是对于fine-grain的任务,从coarse到fine的知识学习。作者认为这种label的hierarchy中包含了非常多的信息,举例:label 一只dog比较容易,但是label一只 poodle就比较困难。

Contributions

  • 提出了一种新的batch处理模式主动学习方法,利用标签层次结构进行cost-efficient的多标签分类。
  • 提出了一种新的对实例标签包含信息性多少的估计准则,该准则不仅考虑了当前查询的有用性,而且考虑了查询后ancestor和descendant标签的潜在贡献。此外,允许层次树的不同级别的标签具有不同的注释成本。在每次迭代中,通过自动最大化instance的信息量,同时最小化整个注释成本来选择一批实例标签对。通过一个双向目标优化问题实现了成本效益的选择。

Method

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI

首先定义,做一些formulation。作者先评估了instant-label里面包含的信息,然后提出了如果做selection的方法

Informativeness for Hierarchical Labels

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI是样本,《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI是标签,《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI表明的是《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI样本经过model 《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI之后评估出来是《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI的相关性。因此,《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI相关的时候,那么他们的ancestor也是呈相关的。如果《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI 不相关,相应的,他们的descentant也是不相关的。 当然而作者认为单纯用这个方案并不能完全的evaluate到相关性,因此这对ancestor和descentant也应该贡献到当前《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI的相似度上去。因此每一对《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI有两种情况需要讨论:

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI,但是在query操作之前,我们是不知道的。作者因此,作者先使用K邻近算法对《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI计算,然后用majority voting得到这一pair的相关性《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI。有:

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI是k邻近。如果x是个打了标签的,那么《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI就是标签y,如果x没打标签那么就是《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI。计算当前结点的ancestor和descentant的uncertainty为,(细节就不写了,文章有)《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI

 

Cost-effective Selection

核心的计算为

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI

 

《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI

相关文章: