Resnet50网络的应用—抑郁症诊断

写在前边

本人研究生阶段的研究内容为抑郁症诊断，最近一直在想搭建件简单有效的网络，提升自己编码能力的同时，推动科研的进展。本文是总结了最近两周学习的论文中，应用到Resnet_50网络的，在此进行整理和总结。欢迎相同方向的同学交流学习。

正文

相比于之前的思路，本部分选择的是三个论文，都是借助Resnet_50网络作为核心网路的，我觉得这个方向是可以进行相应的学习和研究的。

论文名称：DEPRESSION DETECTION BASED ON DEEP DISTRIBUTION LEARNING

数据集：AVEC2013、AVEC2014

创新点：本文的出发角度是很好的，解决现在部分模型中，损失函数是基于标记的面部图像，没有明确地探讨所有面部图像与抑郁水平之间的序数关系。通过对整个个体图片的完全整理，实现对所有图对相应的抑郁分数的对应，从而降低误差。

整体结构：

整体模型图如下图：

Resnet50网络的应用—抑郁症诊断

本文将抑郁症诊断问题作为分类问题处理的，整体以一个样本的所有图片作为一个样本，对应一个label。

本文提出 expectation loss 来描述抑郁分数的分布，首先针对输入的 i 个图片Xi，Yi为对应所以的label，Zi表示系统的输出抑郁症分数，计算获取概率，

Resnet50网络的应用—抑郁症诊断

为了求得分布，先计算下期望值,其中j表示label:

Resnet50网络的应用—抑郁症诊断

期望损失函数就可以表示为，其中M为bath_size：

Resnet50网络的应用—抑郁症诊断

实验部分：

预处理：1>采样，AVEC2013每100帧取一帧，AVEC2014每10帧取一帧；2>人脸对齐裁剪，MTCNN工具

模型:在VGG FACE 上训练过的Resnet_50

评价标准： MSE和RMS

结果：结果效果相比于之前的模型还是有很大的进步的，这也鼓励大家从整体的角度来考虑诊断的问题。

Resnet50网络的应用—抑郁症诊断

现阶段思路的问题:实验中，作者是将一个vedio裁剪的图片一次送入到网络中吗？图片特别多，硬件不支持的问题是怎么处理的那？

论文名称：Learning content-adaptive feature pooling for facial depression recognition in videos

数据集：AVEC2014

创新点：作者发现，针对每个图片，模型认定其对最终结果的影响权重都是一样的。显然，这样是存在问题的，因为有的帧图片中的姿势、角度并不适合系统进行相应分数诊断。所以，作者借助memory attention mechanism 来对帧图片进行权重的分配，以使得效果较好的图片对结果起到主导作用。

整体结构：

从整体来看，网络是分为两部分：Resnet_50网络提取图片特征，级联的两层attention网络进行权重分配，最后的全连层输出抑郁诊断结果，网络整体结构如下图：

Resnet50网络的应用—抑郁症诊断