阅读ICML2020-CURL-自监督+强化学习相关论文


今天阅读了ICML2020的一篇文章,题目信息:
ICML2020-CURL(自监督学习+强化学习文章)阅读
作者是UCB的。

摘要

强化学习如果直接从高维数据开始学习,例如从pixel开始学习,需要大量的样本,样本利用效率比较低,因此CURL希望通过自监督学习中的对比学习(contrastive learning)自动从raw pixel中学习到比较高层的抽象特征,并在此基础上进行强化学习。CURL算法在经典的连续和离散控制环境DeepMind Control Suite和 Atari游戏上都进行了实验,在相同采样步数的条件下,算法性能超过了之前的基于pixel的算法,并且采样效率和基于抽象好的state特征的算法十分接近。

方法

算法主要是结合了对比学习和强化学习,阅读前需要对自监督学习、对比学习有一个比较好的掌握。下面是算法的一个说明。细节也看不太懂,先这样吧。
对比学习这里,数据增广用的是crop,论文里定义θq=θk\theta_q=\theta_k
ICML2020-CURL(自监督学习+强化学习文章)阅读
其实这种学习抽象特征的方法文章也比较多,这篇能中感觉应该是实验做得比较多,可信,方法也比较简单,效果相对也好。

补充

关于自监督学习:是无监督学习的一种,样本是没有关于任务的标签数据的,该方法通过一些自我监督任务来学习相对好的特征表示,并在此基础上finetune来完成其他任务。自监督学习的分类方式有许多种,比如通过自我监督任务的类型可以分为:数据恢复任务,数据变换任务等等;另外也有综述把自监督学习方法分为:数据生成类方法,对比学习类方法,和混合生成和对比的方法。最近的综述和链接比较多,可以参考链接
关于对比学习:个人理解是有一点三元组-学习到一个表征,使得表征后query和positive key之间的距离要远远大于其negtive key之间的距离。和query来自同一张图片的增广图片一般是positive的,来自其他图片的增广是negtive的。

相关文章:

  • 2021-10-08
  • 2021-12-09
  • 2022-12-23
  • 2021-12-14
  • 2022-12-23
  • 2021-03-29
  • 2021-05-01
猜你喜欢
  • 2021-06-11
  • 2021-09-27
  • 2021-09-07
  • 2021-07-18
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案