出处:[腾讯]RecSys2020最佳长论文
参考:https://mp.weixin.qq.com/s/IEtlu2AhvwI-W6lZY1j4NQ

1、论文贡献
论文对多任务学习方向,多个任务在NN模型中的架构形式做了探索。具体分为单层和多层两种结构。
2、单层的几种结构如下:
其中MMOE为google提出的专家模型,这里作为强基线,CGC为作者提出的模型,可以看出主要区别在于,作者的模型中每个任务同时有共享的专家和独有的专家,而MMOE全部是共有的专家,作者认为这样可以拟合任务间复杂的相关性(相近的任务共享参数可以提高性能,不相近的任务会引入噪声降低性能,同时有共享参数和独有参数可以环境这种噪声,即论文说的跷跷板现象)。
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
3、多层的结构如下:
多层可以近似认为是单层结构基础上进行堆叠,具体结构如下:
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
4、专家之间的连接:
如下图所示,对于每个任务,共有专家和独有专家的输出使用门控来加权求和。公式如下图所示:
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
式中,x为input,S为不同专家的输出。
5、多任务的loss:
多个任务的loss采用人工加权的方式,此外可能多个任务的样本空间不同,如果样本s属于任务T1,不属于任务T2,那么任务T2的loss要设为为0
6、效果:
在推荐任务上的效果如下:其中CGC为单层,PLE为多层(2层)。
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
此外,作者还将不同专家的平均权重展示出来,可以看出MOE不同专家权重基本相差不大,PLE模型共享专家和独有专家的权重相差更大,说明针对不同的任务,能够有效利用共享Expert和独有Expert的信息,这也解释了为什么其能够达到比MMoE更好的训练结果。
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
7、其他:
作者为了说明多任务学习不同任务效果此消彼长的跷跷板现象,画了一个混淆矩阵,这种分析方式值得借鉴:
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized

相关文章: