引入
论文地址:https://www.ijcai.org/Proceedings/2017/262
目标:设计一种针对MIML的查询策略,以便获取更为准确的信息而无需附加代价。
步骤:
1)设计一种选择最大价值bag-label对的标准;
2)Oracle反馈包与标签的相关性。
1 算法基础
本文部分符号表如下:
| 符号 |
意义 |
| Dl |
初始有标记集 |
| Nl |
有标记集大小 |
| Du |
无标记集 |
| (Xi,Yi) |
MIML对象 |
| Xi={xi1,⋯,xi,mi} |
第i个包 |
| xij∈Rd |
包中实例 |
| mi |
包大小 |
| Yi=[yi1,⋯,yi,K]T |
包标签 |
| U(X) |
包未查询标签集 |
说明:X∈Du iff ∣U(X)∣>0
1.1 已有标准
说明:该部分略看即可。
受多标签主动学习 1启发,使用diversity和uncertainty来选择bag-label对:
g(Xi)=max{ξ,K−card(U(Xi))}∣∣∣∑k=1KI[y^ik>0]−Nl1∑j=1Nl∑k=1KI[yjk>0]∣∣∣,(1)其中y^ik是包Xi的第k个标签的预测;ξ∈(0,1)是一个用于避免除0的常量;card用于计算集合大小;I[x]={1,x=True;0,oterwise.这里的分母表示当前包有多少个标签已经被查询。最终,将选择具有最大g的X∗。
以下公式用于评测标签y对于包X∗的信息量,即y的预测离决策边界的远近:
h(X∗,y)=∣fy(X∗)−fy0(X∗)∣,(2)其中fy是一个预测函数;y0是一个用于划分相关标签与不相关标签的虚拟标签。通常假设离决策边界越近不确定性越大,因此将选择具有最小h的y∗。
Oracle将决定所选择bag-label对,即(X∗,y∗)的相关性。如果没有相关性,则y∗是一个负标签;反之,Oracle将说明该包中哪一个实例决定标签y∗,该实例也称为关键实例,用x∗表示。
1.2 新标准
通过最小化标签定义上的rank loss,MIML可以转换为label ranking问题 2。受其启发,关于x的第k个表情的预测函数定义如下:
fk(x)=wkTW0x,(3)其中W0∈Rb×d表示将原始d维特征向量映射到稀疏空间的矩阵。
看不下去了。。。。
2 算法流程

-
[Huang and Zhou, 2013] S.-J. Huang and Z.-H. Zhou. Active query driven by uncertainty and diversity for incremental multi-label learning. In Proceedings of the 13th IEEE International Conference on Data Mining, pages 1079–1084, 2013. ↩︎
-
[Huang et al., 2014a] S.-J. Huang, W. Gao, and Z.-H. Zhou. Fast multi-instance multi-label learning. In Proceedings of the 28th AAAI Conference on Artificial Intelligence, pages 1868–1874, 2014. ↩︎