论文分享：概率MAML

题目与文章脉络

题目：《Probabilistic Model-Agnostic Meta-Learning》
时间：2018.07
机构：UC伯克利
行文安排：
Section1：介绍
Section2：现状
Section3：术语
Section4：方法
Section5：实验
Section6：总结

摘要：
（1）元学习：是指获得先前的任务和经验，例如从少量数据中学习新的任务。
（2）小样本学习的一个关键挑战是：任务模糊性，即使可以从大量先验任务中通过元学习获得一个强大的先验,新任务的小数据集太过模糊，很难获得一个精确的模型(例如,一个分类器)。
（3）本文扩展了MAML，提出了一个概率元学习算法PLATIPUS。它可以从一个模型分布中为一个新任务采样模型，通过梯度下降适应新的任务，加入了通过变分下界训练的参数分布。在元测试时，我们的算法通过在梯度下降中注入噪声的简单过程进行调整，在元训练时，对模型进行训练，使这个随机适应过程从近似的模型后验中产生样本。
（4）实验结果表明，该方法能够对模糊小样本学习的分类器、回归器进行采样。

S1 介绍

元学习：利用过去的经验来学习任务的先验，在这过程中，发现来自同一家族的不同任务之间的共享结构。

小样本元学习的最终目标：从少量数据中学习新任务的解决方案

它面临问题：任务模糊性

即使有可能的最佳先验，示例中也可能没有足够的信息用于新任务，以高确定性地解决该任务。

开发能够对模糊的小样本学习问题提出多个潜在解决方案的小样本元学习方法的作用：
（1）可以用来评估不确定度(通过测量样本间的一致性)，进行主动学习，或促使人类直接监督哪个样本更好。
（2）不确定性是决定学习的预测器是否可信的关键。当从非常少的数据中学习时，不确定性估计也可以帮助预测额外的数据是否对学习有益，并提高对奖励的估计。

在小样本学习中，识别和计算模糊度很重要。
（1）在简单函数逼近器上（如线性），容易，因为表示函数的分布是相对简单的。
（2）在高维数据、大函数逼近器(如DNN)和多模态任务结构上，难，因为明确地表示成千上万或数百万个参数的表达分布通常很棘手。
GAP：现有方法集中于获得确定性学习算法，忽视模糊的基本功能。

创新：利用平摊变分推理建立了一个概率元学习方法，这种小样本学习方法同时具有可扩展性和不确定性。

方法建立在MAML上，模型使用标准梯度下降算法，在元测试阶段，去适应一个新的小样本任务；在元训练阶段，训练模型参数保证模型的快速适应能力。它本质上是优化一个神经网络初始化，非常适合小样本学习。MAML保留了黑箱元学习器的普遍性，同时也适用于标准的神经网络结构。

我们的PLATIPUS方法扩展了MAML，在先验模型参数上建模了一个分布，带来了一个简单的随机适应过程，在元测试阶段的梯度下降中注入噪声。在元训练阶段，对简单的推理过程进行优化，从一个近似的模型后验中产生样本。

S2 现状

S2.1 why分层贝叶斯+元学习？

（1）分层贝叶斯模型是一种长期存在的小样本学习方法，它自然具备对函数的不确定性进行推理的能力。
目前的分层贝叶斯方法只用在简单的图像分类数据集，没有适用于更复杂的问题。

（2）元学习方法是解决小样本学习问题的一个有效方法。
目前的基于元学习的小样本学习的问题方法缺乏对不确定性进行推理的能力。

S2.2 神经统计学家方法

思想：使用明确的任务变量来建模任务分布，这是一种考虑多层贝叶斯模型的小样本学习方法。
GAP：模型依赖
本文方法的不同：PLATIUS是模型无关的

S2.3 LLAMA方法

思想：它也是基于MAML算法，利用局部拉普拉斯近似来建模任务参数(更新后参数)，
GAP：近似过程引入了近似高维协方差矩阵，计算复杂。
本文方法的不同：通过一个由梯度操作参数化的近似后验选择使之易于处理。

S2.4 贝叶斯神经网络方法

BNN是一种将不确定性纳入深度网络的方法
思想：直接学习单个任务的后验分布
（1）精确推断不切实际的
（2）基于反向传播和采样近似，可以将不确定性纳入泛型网络的权值。
本文方法的不同：利用平摊变分推理方法，显式训练层次贝叶斯模型的权重，在元测试阶段，基于学得的权重先验和小样本训练集，可以推断特定任务参数分布的后验。

PLATIUS模型和推理网络共享相同的参数。

MAML的图模型：
论文分享：概率MAML
图模型的作用：
（1）描述概率分布：通过用图描述随机变量之间的相互作用
（2）简化模型：减少模型参数个数
（3）小样本学习：只需要少量数据
（4）计算开销小：减小存储、推断、采样的计算量

S3 术语

S4 方法

S4.1 用变分推断进行基于梯度的元学习

S4.2 用混合推断进行概率MAML

S4.3 加入其它依赖

S5 实验

S6 总结

我的思考

背景：MAML有一致性、通用性2特点

问题：它是否能具有可伸缩+一致性，从而去推断不确定性？

方法：平摊变分推断（amortized VI），将MAML重定义成图模型推理问题
（1）对先验参数的分布建模，产生随机适应过程，在元测试时间将噪声注入到梯度下降中。
（2）元训练过程优化这个推理过程，从一个近似的模型后验中产生样本。

Probabilistic-MAML相对于MAML的提升？
（1）给模型注入噪声，增加稳定性
（2）让模型可以给出预测结果的不确定度
（3）采样不同的回归变量

目录