论文信息

题目:

  • Online Meta-Learning

作者:

  • Chelsea Finn * 1 Aravind Rajeswaran * 2 Sham Kakade 2 Sergey Levine 1
    1 University of California, Berkeley
    2University of Washington. Correspondence to: Chelsea Finn [email protected], Aravind Rajeswaran [email protected]

期刊会议:

年份:

  • 2019

论文地址:

代码:

摘要

元学习能够通过对先验任务的学习实现在新任务上的快速适应,但是是在假设任务作为batch一起使用(任务分布可以随时获得). 而online learning考虑的是有序的设定,在这种设置中任务是一个接一个的被revealed. 基于这些工作,这篇论文引入online meta-Learning setting,融合meta learning思想到 online learning. 提出follow the meta leader learning,拓展meta learning到这种setting. 保证一个高阶光滑假设下理论证明有一个 O ( log ⁡ T ) \mathcal{O}(\log T) O(logT)regret保证. 通过实验证明了提出的算法性能significantly超过传统online learning方法.

基础补充

meta-learning与MAML

  • meta learning: 假设任务能从一个固定分布中获得 T ∼ P ( T ) \mathcal{T} \sim \mathbb{P}(\mathcal{T}) TP(T)。在meta-training time,采了M个task { T i } i = 1 M \left\{\mathcal{T}_{i}\right\}_{i=1}^{M} {Ti}i=1M,对于的数据集agent能够获得。At deployment time,会遇到一个新的task T j ∼ P ( T ) \mathcal{T}_{j} \sim \mathbb{P}(\mathcal{T}) TjP(T),这个新task是由一个small的labeled dataset D j : = { x j , y j } \mathcal{D}_{j}:=\left\{\mathbf{x}_{j}, \mathbf{y}_{j}\right\} Dj:={xj,yj}。meta-learning做的是使用M个task训练模型,这样当从测试任务中发现 D j \mathcal{D}_{j} Dj时,可以快速更新模型以最小化 f j ( w ) f_{j}(\mathbf{w}) fj(w)
  • MAML是学习一个初始值 W M A M L \mathbf{W}_{\mathrm{MAML}} WMAML,实现meta-test time,利用 D j \mathcal{D}_{j} Dj进行几步梯度更新 W M A M L \mathbf{W}_{\mathrm{MAML}} WMAML,就能实现最小化 f j ( ⋅ ) f_{j}(\mathbf{\cdot}) fj(),MAMl主要解决的是一个优化问题
    w M A M L : = arg ⁡ min ⁡ w 1 M ∑ i = 1 M f i ( w − α ∇ f ^ i ( w ) ) \mathbf{w}_{\mathrm{MAML}}:=\arg \min _{\mathbf{w}} \frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{w}-\alpha \nabla \hat{f}_{i}(\mathbf{w})\right) wMAML:=argwminM1i=1Mfi(wαf^i(w))
    其中,inner gradient ∇ f ^ i ( w ) \nabla \hat{f}_{i}(\mathbf{w}) f^i(w)是基于small min-batch of data from D i \mathcal{D}_{i} Di

online learning

在online learning setting中,agent面临的是一系列的损失函数, { f t } t = 1 ∞ \left\{f_{t}\right\}_{t=1}^{\infty} {ft}t=1,在每个round t t t 有一个,而这些函数不需要从一个固定的分布中获得,学习者的目标是按顺序确定模型参数 { w t } t = 1 ∞ \left\{\mathbf{w}_{t}\right\}_{t=1}^{\infty} {wt}t=1,这些模型参数能够在在损失序列上表现很好。其中,最standard 目标是最小化regret的notion,这些是定义我们的学习者的loss, ∑ t = 1 T f t ( w t ) \sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right) t=1Tft(wt)与一些方法族(比较器类)可以实现的最佳性能的差距。最标准的regret的notion是在事后将其与最佳固定模型的累积损失进行比较:
Regret ⁡ T = ∑ t = 1 T f t ( w t ) − min ⁡ w ∑ t = 1 T f t ( w ) \operatorname{Regret}_{T}=\sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right)-\min _{\mathbf{w}} \sum_{t=1}^{T} f_{t}(\mathbf{w}) RegretT=t=1Tft(wt)wmint=1Tft(w)
这种设置中最简单的算法之一是follow the leader (FTL),通过如下方式更新参数:
w t + 1 = arg ⁡ min ⁡ w ∑ k = 1 t f k ( w ) \mathbf{w}_{t+1}=\arg \min _{\mathbf{w}} \sum_{k=1}^{t} f_{k}(\mathbf{w}) wt+1=argwmink=1tfk(w)
对于少镜头监督学习的例子,FTL将把之前任务流中的所有数据合并到一个大数据集中,并为这个数据集匹配一个单一的模型。

内容

算法

Online Meta-Learning

Online Meta-Learning

实验

使用FTML方法与其他三种方法对比:

  • TOE,在所有可用数据上进行训练
  • From Scratch,(随机初始化 w t w_{t} wt,然后再 D t 上 微 调 D_{t}上微调 Dt
  • FTL,使用微调联合训练(joint training)
    Online Meta-Learning
    Online Meta-Learning
  • 图3中的学习曲线显示,随着每个新任务的添加,FTML学习任务的速度越来越快。我们还观察到,FTML在效率和最终性能方面大大优于其他方法。

Online Meta-Learning

  • 图4表明,FTML比独立的模型和具有,共享的特性空间。从右边的结果可以看出,在2000个数据点的情况下,从零开始的训练取得了很好的性能,达到了与FTML相似的性能。然而,FTML的最后一层变体似乎不能在所有任务上都达到良好的性能。还可以观察到,FTML受益于调整所有层,而不是在只调整最后一层的情况下学习跨任务的共享特性空间。说明这是所有层共同作用的结果

实验

结论

不足

不懂

可借鉴地方

相关文章: