论文信息
题目:
- Online Meta-Learning
作者:
- Chelsea Finn * 1 Aravind Rajeswaran * 2 Sham Kakade 2 Sergey Levine 1
1 University of California, Berkeley
2University of Washington. Correspondence to: Chelsea Finn [email protected], Aravind Rajeswaran [email protected]
期刊会议:
年份:
- 2019
论文地址:
代码:
摘要
元学习能够通过对先验任务的学习实现在新任务上的快速适应,但是是在假设任务作为batch一起使用(任务分布可以随时获得). 而online learning考虑的是有序的设定,在这种设置中任务是一个接一个的被revealed. 基于这些工作,这篇论文引入online meta-Learning setting,融合meta learning思想到 online learning. 提出follow the meta leader learning,拓展meta learning到这种setting. 保证一个高阶光滑假设下理论证明有一个 O ( log T ) \mathcal{O}(\log T) O(logT)regret保证. 通过实验证明了提出的算法性能significantly超过传统online learning方法.
基础补充
meta-learning与MAML
- meta learning: 假设任务能从一个固定分布中获得 T ∼ P ( T ) \mathcal{T} \sim \mathbb{P}(\mathcal{T}) T∼P(T)。在meta-training time,采了M个task { T i } i = 1 M \left\{\mathcal{T}_{i}\right\}_{i=1}^{M} {Ti}i=1M,对于的数据集agent能够获得。At deployment time,会遇到一个新的task T j ∼ P ( T ) \mathcal{T}_{j} \sim \mathbb{P}(\mathcal{T}) Tj∼P(T),这个新task是由一个small的labeled dataset D j : = { x j , y j } \mathcal{D}_{j}:=\left\{\mathbf{x}_{j}, \mathbf{y}_{j}\right\} Dj:={xj,yj}。meta-learning做的是使用M个task训练模型,这样当从测试任务中发现 D j \mathcal{D}_{j} Dj时,可以快速更新模型以最小化 f j ( w ) f_{j}(\mathbf{w}) fj(w)
- MAML是学习一个初始值
W
M
A
M
L
\mathbf{W}_{\mathrm{MAML}}
WMAML,实现meta-test time,利用
D
j
\mathcal{D}_{j}
Dj进行几步梯度更新
W
M
A
M
L
\mathbf{W}_{\mathrm{MAML}}
WMAML,就能实现最小化
f
j
(
⋅
)
f_{j}(\mathbf{\cdot})
fj(⋅),MAMl主要解决的是一个优化问题
w M A M L : = arg min w 1 M ∑ i = 1 M f i ( w − α ∇ f ^ i ( w ) ) \mathbf{w}_{\mathrm{MAML}}:=\arg \min _{\mathbf{w}} \frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{w}-\alpha \nabla \hat{f}_{i}(\mathbf{w})\right) wMAML:=argwminM1i=1∑Mfi(w−α∇f^i(w))
其中,inner gradient ∇ f ^ i ( w ) \nabla \hat{f}_{i}(\mathbf{w}) ∇f^i(w)是基于small min-batch of data from D i \mathcal{D}_{i} Di
online learning
在online learning setting中,agent面临的是一系列的损失函数,
{
f
t
}
t
=
1
∞
\left\{f_{t}\right\}_{t=1}^{\infty}
{ft}t=1∞,在每个round
t
t
t 有一个,而这些函数不需要从一个固定的分布中获得,学习者的目标是按顺序确定模型参数
{
w
t
}
t
=
1
∞
\left\{\mathbf{w}_{t}\right\}_{t=1}^{\infty}
{wt}t=1∞,这些模型参数能够在在损失序列上表现很好。其中,最standard 目标是最小化regret的notion,这些是定义我们的学习者的loss,
∑
t
=
1
T
f
t
(
w
t
)
\sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right)
∑t=1Tft(wt)与一些方法族(比较器类)可以实现的最佳性能的差距。最标准的regret的notion是在事后将其与最佳固定模型的累积损失进行比较:
Regret
T
=
∑
t
=
1
T
f
t
(
w
t
)
−
min
w
∑
t
=
1
T
f
t
(
w
)
\operatorname{Regret}_{T}=\sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right)-\min _{\mathbf{w}} \sum_{t=1}^{T} f_{t}(\mathbf{w})
RegretT=t=1∑Tft(wt)−wmint=1∑Tft(w)
这种设置中最简单的算法之一是follow the leader (FTL),通过如下方式更新参数:
w
t
+
1
=
arg
min
w
∑
k
=
1
t
f
k
(
w
)
\mathbf{w}_{t+1}=\arg \min _{\mathbf{w}} \sum_{k=1}^{t} f_{k}(\mathbf{w})
wt+1=argwmink=1∑tfk(w)
对于少镜头监督学习的例子,FTL将把之前任务流中的所有数据合并到一个大数据集中,并为这个数据集匹配一个单一的模型。
内容
算法
实验
使用FTML方法与其他三种方法对比:
- TOE,在所有可用数据上进行训练
- From Scratch,(随机初始化 w t w_{t} wt,然后再 D t 上 微 调 D_{t}上微调 Dt上微调)
- FTL,使用微调联合训练(joint training)
- 图3中的学习曲线显示,随着每个新任务的添加,FTML学习任务的速度越来越快。我们还观察到,FTML在效率和最终性能方面大大优于其他方法。
- 图4表明,FTML比独立的模型和具有,共享的特性空间。从右边的结果可以看出,在2000个数据点的情况下,从零开始的训练取得了很好的性能,达到了与FTML相似的性能。然而,FTML的最后一层变体似乎不能在所有任务上都达到良好的性能。还可以观察到,FTML受益于调整所有层,而不是在只调整最后一层的情况下学习跨任务的共享特性空间。说明这是所有层共同作用的结果