Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、
特征提取部分
- BERT-large 1024维
- DenseNet 342
- OPENsmile 1582
- z-normalization (怀疑就是这个导致准备率不高,测试一下)
DAE部分
- 对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷积进行下取样
- 对于声音, 使用全连接层即可 (对于声音,其实也是一个关于一组特征序列, 不知道为什么不使用Seq2Seq)
Loss设计部分
-
Reconstruction loss 重建loss
- 减少encoder 的信息损失
-
Unsupervised Distribution Matching Loss
- 因为同一样本不同模态的表示应该相近,所以可以进行半监督学习,具体方法是: 拿一些unlabeled的视频样本,然后提取出三个模态的特征,输入到encoder模块里,得到的表示应该相近(分布匹配)
-
Supervised Emotion Classifcation Loss 分类loss
- 没有特别的融合方法,把encoder出的表示拼接即可,算出分类、
Unpair 样本解决坍缩问题 (可能是实验产生的问题,需要注意)
全给匹配的样本反而会导致坍缩, 所以作者制造了一些不匹配的样品, 这些样本的三个模态的特征提取于不同的视频,所以它们的encoder表达必然距离远