ICML2020-CURL（自监督学习+强化学习文章）阅读

阅读ICML2020-CURL-自监督+强化学习相关论文

文章目录

阅读ICML2020-CURL-自监督+强化学习相关论文

摘要
方法
补充

今天阅读了ICML2020的一篇文章，题目信息：
ICML2020-CURL（自监督学习+强化学习文章）阅读

作者是UCB的。

摘要

强化学习如果直接从高维数据开始学习，例如从pixel开始学习，需要大量的样本，样本利用效率比较低，因此CURL希望通过自监督学习中的对比学习（contrastive learning）自动从raw pixel中学习到比较高层的抽象特征，并在此基础上进行强化学习。CURL算法在经典的连续和离散控制环境DeepMind Control Suite和 Atari游戏上都进行了实验，在相同采样步数的条件下，算法性能超过了之前的基于pixel的算法，并且采样效率和基于抽象好的state特征的算法十分接近。

方法

算法主要是结合了对比学习和强化学习，阅读前需要对自监督学习、对比学习有一个比较好的掌握。下面是算法的一个说明。细节也看不太懂，先这样吧。
对比学习这里，数据增广用的是crop，论文里定义 $\theta_q=\theta_k$
ICML2020-CURL（自监督学习+强化学习文章）阅读
其实这种学习抽象特征的方法文章也比较多，这篇能中感觉应该是实验做得比较多，可信，方法也比较简单，效果相对也好。

补充

关于自监督学习：是无监督学习的一种，样本是没有关于任务的标签数据的，该方法通过一些自我监督任务来学习相对好的特征表示，并在此基础上finetune来完成其他任务。自监督学习的分类方式有许多种，比如通过自我监督任务的类型可以分为：数据恢复任务，数据变换任务等等；另外也有综述把自监督学习方法分为：数据生成类方法，对比学习类方法，和混合生成和对比的方法。最近的综述和链接比较多，可以参考链接
关于对比学习：个人理解是有一点三元组-学习到一个表征，使得表征后query和positive key之间的距离要远远大于其negtive key之间的距离。和query来自同一张图片的增广图片一般是positive的，来自其他图片的增广是negtive的。