Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

特征提取部分

BERT-large 1024维
DenseNet 342
OPENsmile 1582
z-normalization （怀疑就是这个导致准备率不高，测试一下）

DAE部分

对于视觉和文字，因为是一个关于时间的序列特征，所以使用Seq2Seq的 encoder （Transform），加入卷积进行下取样
对于声音，使用全连接层即可（对于声音，其实也是一个关于一组特征序列，不知道为什么不使用Seq2Seq）

Loss设计部分

Reconstruction loss 重建loss
- 减少encoder 的信息损失
Unsupervised Distribution Matching Loss
- 因为同一样本不同模态的表示应该相近，所以可以进行半监督学习，具体方法是：拿一些unlabeled的视频样本，然后提取出三个模态的特征，输入到encoder模块里，得到的表示应该相近（分布匹配）
Supervised Emotion Classifcation Loss 分类loss
- 没有特别的融合方法，把encoder出的表示拼接即可，算出分类、

Unpair 样本解决坍缩问题 (可能是实验产生的问题，需要注意)

全给匹配的样本反而会导致坍缩，所以作者制造了一些不匹配的样品，这些样本的三个模态的特征提取于不同的视频，所以它们的encoder表达必然距离远

相关文章：

2021-11-23
2021-09-09
2022-12-23
2021-07-12
2021-07-15
2022-01-12
2021-08-05

猜你喜欢

2021-07-22
2021-07-18
2022-12-23
2021-10-15
2021-11-17
2021-12-25
2022-12-23

相关资源

下载 2023-03-27
下载 2021-06-07
下载 2023-03-18
下载 2023-01-01

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode