Contrastive Learning在CV领域风生水起,涌现了一批非常优秀的成果,例如:针对ImageNet有Google的SIMCLR, Facebook的MoCo, 和强化学习的CURL。在音频领域却少有研究。
最近Google发了一篇文章,讲述了通过对比学习到音频的通用表达。
Contrastive Learning of General-Purpose Audio Representations
对比学习 Contrastive Learning
首先介绍一下对比学习。
Contrastive self-supervised learning techniques are a promising class of methods that build representations by learning to encode what makes two things similar or different.
对比学习的核心思想是学习这个事物与其他事物之间的差异,而非这个事物本身。 就像我们小时候在学习认识狗和猫,我们已经认识了的标准是:能够分辨他们的不同点,而不是它们“有眼睛,有鼻子,有嘴,有毛”这些相同点。
所以,表示学习的重点不是学习到所有的细节特征,而是学习到能够区别自身和其他样本的区别就好。