Online Meta-Learning

论文信息

题目：

Online Meta-Learning

作者：

Chelsea Finn * 1 Aravind Rajeswaran * 2 Sham Kakade 2 Sergey Levine 1
1 University of California, Berkeley
2University of Washington. Correspondence to: Chelsea Finn [email protected], Aravind Rajeswaran [email protected]

期刊会议：

年份：

2019

论文地址：

代码：

摘要

元学习能够通过对先验任务的学习实现在新任务上的快速适应，但是是在假设任务作为batch一起使用（任务分布可以随时获得）. 而online learning考虑的是有序的设定，在这种设置中任务是一个接一个的被revealed. 基于这些工作，这篇论文引入online meta-Learning setting，融合meta learning思想到 online learning. 提出follow the meta leader learning，拓展meta learning到这种setting. 保证一个高阶光滑假设下理论证明有一个 O ( log ⁡ T ) \mathcal{O}(\log T) O(logT)regret保证. 通过实验证明了提出的算法性能significantly超过传统online learning方法.

基础补充

meta-learning与MAML

meta learning: 假设任务能从一个固定分布中获得 T ∼ P ( T ) \mathcal{T} \sim \mathbb{P}(\mathcal{T}) T∼P(T)。在meta-training time，采了M个task { T i } i = 1 M \left\{\mathcal{T}_{i}\right\}_{i=1}^{M} {Ti}i=1M，对于的数据集agent能够获得。At deployment time，会遇到一个新的task T j ∼ P ( T ) \mathcal{T}_{j} \sim \mathbb{P}(\mathcal{T}) Tj∼P(T)，这个新task是由一个small的labeled dataset D j : = { x j , y j } \mathcal{D}_{j}:=\left\{\mathbf{x}_{j}, \mathbf{y}_{j}\right\} Dj:={xj,yj}。meta-learning做的是使用M个task训练模型，这样当从测试任务中发现 D j \mathcal{D}_{j} Dj时，可以快速更新模型以最小化 f j ( w ) f_{j}(\mathbf{w}) fj(w)
MAML是学习一个初始值 W M A M L \mathbf{W}_{\mathrm{MAML}} WMAML，实现meta-test time，利用 D j \mathcal{D}_{j} Dj进行几步梯度更新 W M A M L \mathbf{W}_{\mathrm{MAML}} WMAML，就能实现最小化 f j ( ⋅ ) f_{j}(\mathbf{\cdot}) fj(⋅)，MAMl主要解决的是一个优化问题
w M A M L : = arg ⁡ min ⁡ w 1 M ∑ i = 1 M f i ( w − α ∇ f ^ i ( w ) ) \mathbf{w}_{\mathrm{MAML}}:=\arg \min _{\mathbf{w}} \frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{w}-\alpha \nabla \hat{f}_{i}(\mathbf{w})\right) wMAML:=argwminM1i=1∑Mfi(w−α∇f^i(w))
其中，inner gradient ∇ f ^ i ( w ) \nabla \hat{f}_{i}(\mathbf{w}) ∇f^i(w)是基于small min-batch of data from D i \mathcal{D}_{i} Di

online learning

在online learning setting中，agent面临的是一系列的损失函数， { f t } t = 1 ∞ \left\{f_{t}\right\}_{t=1}^{\infty} {ft}t=1∞，在每个round t t t 有一个，而这些函数不需要从一个固定的分布中获得，学习者的目标是按顺序确定模型参数 { w t } t = 1 ∞ \left\{\mathbf{w}_{t}\right\}_{t=1}^{\infty} {wt}t=1∞，这些模型参数能够在在损失序列上表现很好。其中，最standard 目标是最小化regret的notion，这些是定义我们的学习者的loss， ∑ t = 1 T f t ( w t ) \sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right) ∑t=1Tft(wt)与一些方法族(比较器类)可以实现的最佳性能的差距。最标准的regret的notion是在事后将其与最佳固定模型的累积损失进行比较:
Regret ⁡ T = ∑ t = 1 T f t ( w t ) − min ⁡ w ∑ t = 1 T f t ( w ) \operatorname{Regret}_{T}=\sum_{t=1}^{T} f_{t}\left(\mathbf{w}_{t}\right)-\min _{\mathbf{w}} \sum_{t=1}^{T} f_{t}(\mathbf{w}) RegretT=t=1∑Tft(wt)−wmint=1∑Tft(w)
这种设置中最简单的算法之一是follow the leader (FTL)，通过如下方式更新参数：
w t + 1 = arg ⁡ min ⁡ w ∑ k = 1 t f k ( w ) \mathbf{w}_{t+1}=\arg \min _{\mathbf{w}} \sum_{k=1}^{t} f_{k}(\mathbf{w}) wt+1=argwmink=1∑tfk(w)
对于少镜头监督学习的例子，FTL将把之前任务流中的所有数据合并到一个大数据集中，并为这个数据集匹配一个单一的模型。

内容

算法

Online Meta-Learning

实验

使用FTML方法与其他三种方法对比：

TOE，在所有可用数据上进行训练
From Scratch，（随机初始化 w t w_{t} wt，然后再 D t 上微调 D_{t}上微调 Dt上微调）
FTL，使用微调联合训练（joint training）
图3中的学习曲线显示，随着每个新任务的添加，FTML学习任务的速度越来越快。我们还观察到，FTML在效率和最终性能方面大大优于其他方法。

Online Meta-Learning

图4表明，FTML比独立的模型和具有，共享的特性空间。从右边的结果可以看出，在2000个数据点的情况下，从零开始的训练取得了很好的性能，达到了与FTML相似的性能。然而，FTML的最后一层变体似乎不能在所有任务上都达到良好的性能。还可以观察到，FTML受益于调整所有层，而不是在只调整最后一层的情况下学习跨任务的共享特性空间。说明这是所有层共同作用的结果

Online Meta-Learning

论文信息

摘要

基础补充

meta-learning与MAML

online learning

内容

算法

实验

实验

结论

不足

不懂

可借鉴地方