Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

特征提取部分

  • BERT-large 1024维
  • DenseNet 342
  • OPENsmile 1582
  • z-normalization (怀疑就是这个导致准备率不高,测试一下)

DAE部分

  • 对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷积进行下取样
  • 对于声音, 使用全连接层即可 (对于声音,其实也是一个关于一组特征序列, 不知道为什么不使用Seq2Seq)

Loss设计部分

  • Reconstruction loss 重建loss

    • 减少encoder 的信息损失
  • Unsupervised Distribution Matching Loss

    • 因为同一样本不同模态的表示应该相近,所以可以进行半监督学习,具体方法是: 拿一些unlabeled的视频样本,然后提取出三个模态的特征,输入到encoder模块里,得到的表示应该相近(分布匹配
  • Supervised Emotion Classifcation Loss 分类loss

    • 没有特别的融合方法,把encoder出的表示拼接即可,算出分类、

Unpair 样本解决坍缩问题 (可能是实验产生的问题,需要注意)

全给匹配的样本反而会导致坍缩, 所以作者制造了一些不匹配的样品, 这些样本的三个模态的特征提取于不同的视频,所以它们的encoder表达必然距离远

相关文章:

  • 2021-11-23
  • 2021-09-09
  • 2022-12-23
  • 2021-07-12
  • 2021-07-15
  • 2022-01-12
  • 2021-08-05
猜你喜欢
  • 2021-07-22
  • 2021-07-18
  • 2022-12-23
  • 2021-10-15
  • 2021-11-17
  • 2021-12-25
  • 2022-12-23
相关资源
相似解决方案