写在前边

本人研究生阶段的研究内容为抑郁症诊断,最近一直在想搭建件简单有效的网络,提升自己编码能力的同时,推动科研的进展。本文是总结了最近两周学习的论文中,应用到Resnet_50网络的,在此进行整理和总结。欢迎相同方向的同学交流学习。

正文

相比于之前的思路,本部分选择的是三个论文,都是借助Resnet_50网络作为核心网路的,我觉得这个方向是可以进行相应的学习和研究的。


论文名称:DEPRESSION DETECTION BASED ON DEEP DISTRIBUTION LEARNING

数据集:AVEC2013、AVEC2014

创新点:本文的出发角度是很好的,解决现在部分模型中,损失函数是基于标记的面部图像,没有明确地探讨所有面部图像与抑郁水平之间的序数关系。通过对整个个体图片的完全整理,实现对所有图对相应的抑郁分数的对应,从而降低误差。

整体结构:

整体模型图如下图:

Resnet50网络的应用—抑郁症诊断

本文将抑郁症诊断问题作为分类问题处理的,整体以一个样本的所有图片作为一个样本,对应一个label。

本文提出  expectation loss 来描述抑郁分数的分布,首先针对输入的 i 个图片Xi,Yi为对应所以的label,Zi表示系统的输出抑郁症分数,计算获取概率,

Resnet50网络的应用—抑郁症诊断

为了求得分布,先计算下期望值,其中j表示label:

Resnet50网络的应用—抑郁症诊断

 

期望损失函数就可以表示为,其中M为bath_size:

Resnet50网络的应用—抑郁症诊断

实验部分:

 预处理:1>采样,AVEC2013每100帧取一帧,AVEC2014每10帧取一帧;2>人脸对齐裁剪MTCNN工具

 模型:在VGG FACE 上训练过的Resnet_50 

 评价标准 : MSE和RMS

结果:结果效果相比于之前的模型还是有很大的进步的,这也鼓励大家从整体的角度来考虑诊断的问题。

Resnet50网络的应用—抑郁症诊断Resnet50网络的应用—抑郁症诊断

 现阶段思路的问题:实验中,作者是将一个vedio裁剪的图片一次送入到网络中吗?图片特别多,硬件不支持的问题是怎么处理的那?


论文名称:Learning content-adaptive feature pooling for facial depression recognition in videos

数据集:AVEC2014

创新点:作者发现,针对每个图片,模型认定其对最终结果的影响权重都是一样的。显然,这样是存在问题的,因为有的帧图片中的姿势、角度并不适合系统进行相应分数诊断。所以,作者借助memory attention mechanism 来对帧图片进行权重的分配,以使得效果较好的图片对结果起到主导作用。

整体结构:

从整体来看,网络是分为两部分:Resnet_50网络提取图片特征,级联的两层attention网络进行权重分配,最后的全连层输出抑郁诊断结果,网络整体结构如下图:

Resnet50网络的应用—抑郁症诊断

通过Resnet_50网络的到的特征,然后希望通过attention机制得到聚合向量h,其中Resnet50网络的应用—抑郁症诊断表示的是权重

Resnet50网络的应用—抑郁症诊断

       Resnet50网络的应用—抑郁症诊断的计算如下,首先通过一纬卷积核Resnet50网络的应用—抑郁症诊断的卷积计算得到重要性系数Resnet50网络的应用—抑郁症诊断将结果输入到softmax中得到相应的权重其实仔细的考虑,这获取权重的方式正是最正经的attention的应用。

Resnet50网络的应用—抑郁症诊断

由于是级联attention机制,所以两者的关系为:

Resnet50网络的应用—抑郁症诊断

最后的损失函数可以定义为:

Resnet50网络的应用—抑郁症诊断

实验结果:相比来看,结果没有一个论文的结果好。其实在再次思考论文的时候,我意识到,在之前attention机制是对一张图使用,抓住图种表达信息的关键信息,比如常见的输出人脸的哪个表达信息的图。在本文中,是将多个图看作是主体,使用attention机制选择出贡献较好的图片

Resnet50网络的应用—抑郁症诊断


论文名称:ENCODING TEMPORAL INFORMATION FOR AUTOMATIC DEPRESSION RECOGNITION

FROM FACIAL ANALYSIS
 

数据集:AVEC2013、AVEC2014

创新点:在传统双流的基础上,对时间特征的预处理做了新的处理,使用的提取高级语义特征的网络为Resnet_50网络

整体结构:

从时间和空间两个角度进行抑郁症诊断的模型从2015年首次使用抑郁症诊断就开始 了,通过看这个模型图可以感受到依旧是从双流的角度出发的,不同的是主体的网络已经不再是之前的CNN网络。本文的主要创新点在于这个时间流的特征。

Resnet50网络的应用—抑郁症诊断


其实,本文考虑的问题也是各种抑郁症诊断过程中不可避免的问题-----过拟合。 文中提出了一种新的时间池方法来捕获和编码视频剪辑的时空动态到图像地图。

Resnet50网络的应用—抑郁症诊断

相关文章: