多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized

出处：[腾讯]RecSys2020最佳长论文
参考：https://mp.weixin.qq.com/s/IEtlu2AhvwI-W6lZY1j4NQ

1、论文贡献
论文对多任务学习方向，多个任务在NN模型中的架构形式做了探索。具体分为单层和多层两种结构。
2、单层的几种结构如下：
其中MMOE为google提出的专家模型，这里作为强基线，CGC为作者提出的模型，可以看出主要区别在于，作者的模型中每个任务同时有共享的专家和独有的专家，而MMOE全部是共有的专家，作者认为这样可以拟合任务间复杂的相关性（相近的任务共享参数可以提高性能，不相近的任务会引入噪声降低性能，同时有共享参数和独有参数可以环境这种噪声，即论文说的跷跷板现象）。
多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
3、多层的结构如下:
多层可以近似认为是单层结构基础上进行堆叠，具体结构如下：

4、专家之间的连接：
如下图所示，对于每个任务，共有专家和独有专家的输出使用门控来加权求和。公式如下图所示：
多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized

式中，x为input，S为不同专家的输出。
5、多任务的loss：
多个任务的loss采用人工加权的方式，此外可能多个任务的样本空间不同，如果样本s属于任务T1,不属于任务T2，那么任务T2的loss要设为为0
6、效果：
在推荐任务上的效果如下：其中CGC为单层，PLE为多层（2层）。
多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
此外，作者还将不同专家的平均权重展示出来，可以看出MOE不同专家权重基本相差不大，PLE模型共享专家和独有专家的权重相差更大，说明针对不同的任务，能够有效利用共享Expert和独有Expert的信息，这也解释了为什么其能够达到比MMoE更好的训练结果。
多任务学习：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
7、其他：
作者为了说明多任务学习不同任务效果此消彼长的跷跷板现象，画了一个混淆矩阵，这种分析方式值得借鉴：