Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation

Abstract

问题:

  • 捕捉面部表情的微小表化很困难;
  • AU强度的标注费时费力。

本文:
提出弱监督的BORMIR模型:weakly supervised regression model-Bilateral Ordinal Relevance Multi-instance Regression。通过引入数据间的序列关系来提高AU强度的检测。

Introduction

问题:
当前的大多数关于AU强度检测的工作都是有监督的且很少有工作关注利用无标签的数据中蕴含的信息。

CVPR: Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity

如图2所示,AU强度会随着面部的变化而缓慢变化。相比于对每帧进行AU强度的标注,识别关键帧(peak和valley帧)是比较容易的。从valley到peak帧,AU强度是逐渐变化的。本文的模型即尝试利用该特性。对于从valley到peak以及从peak到valley分别都可以构成一个片段(segment),我们把该片段称为bag,把其中的帧定义为instance。对于每一个bag,有两种标签(two bag labels):peak bag label(peak帧的AU强度),valley bag label(valley帧的AU强度)。引入”相关性“的概念来表示每一个instance与一个bag label的关系。

  • 在每一个片段(segment)中,帧越接近于peak(valley),它与peak(valley)的相关性越大,换言之,即序列相关性;
  • 因为变化是平滑的,临近的两帧的相关性的差别应该很小;
  • 因为变化是平滑的,临近的两帧的强度的差别应该很小。

方法的pipeline是:

CVPR: Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity

The proposed method

将下降的segment,反转成上升的,即将peak到valley的segment进行反转,由此训练集中的segment的强度都变为由valley上升到peak的过程。

训练集D={(Bi,yi0,yi)}i=1N包含N个segment,定义Bi=[Bi1,Bi2,,Bini]Rd×ni表示第i个segment的image features,其中ni是帧的数量,d是特征的维度。peak bag label是yiR,表示peak帧的强度。Valley bag label yi0R是valley frame的强度。定义αijβij分别表示第j帧中与peak和valley的相关性。我们定义:Hi=j=1niαijβij=Biai表示一个bag中的instance的组合。为了保证组合在这些instance的凸包中,ai需要满足j=1niaij=1以及ai0

给定训练集D,我们的目标是学习一个关于帧的强度检测器f,对于一个未知标签的帧xRd,可以给出预测的结果y,即y=f(x;w)=wTx

与peak相关性(peak relevance)αi相似,对于βi同样有j=1niβij=1,βi0。对每一帧,peak和valley相关性并不是相互独立的,两者之间存在关联,如当peak相关性较小时,valley相关性较大,我们有αij+βij=αik+βik。对于bag中的所有帧,将上述关系表示成矩阵的形式,可得:

(1)Vi(αi+βi)=0

其中ViRni×ni,Vij,j=1,Vij,j+1=1,其它元素为0。对于peak bag label的损失为:
(2)L(w,{αi}i=1N,D)=12i=1N(yiwTBiαi)2

同样的,valley bag label的损失是:
(3)L0(w,{βi}i=1N,D)=12i=1N(yi0wTBiβ)2

Incorporating Knowledge

Ordinal relevance:
因为在一个segment中,强度的变化是平滑的且单调的,可知一帧距离peak帧越近,则peak相关性越大;同样的,一帧距离valley越近,则valley相关性越大。在一个训练集的segment中,peak相关性逐渐增大,valley相关性逐渐减小。对于特征Bi,对于peak相关性有:

(4)Sα(αi)={αiRni|eiTαi=1,0αi1αi2αini}

其中ei是一个ni维度的元素全为1的向量。同理,对于valley相关性,有:
(5)Sβ(βi)={βiRni|eiTβi=1,βi1βi2βini0}

Intensity smoothness:
相邻的帧的强度应该是相近的,即两者之间的差别很小,于是可得到下面的正则项:
(6)R1(w,D)=i=1Nj,k=1niCij,k(wTBijwTBik)2=12wT[i=1NBi(DiCi)BiT]w=12wTLw

其中,L=i=1NBi(DiCi)BiTCi是一个邻接矩阵。当|j=k|=1时,Cij,k=1。否则,\textbf{C}_i^{j,k}=0。Dii,j=kCij,k,且jk时,Dij,k=0
Relevance smoothness
与前面所说的强度的变化类似,相关性的变化同样也是平滑的。相邻帧的相关性的差异应该也是很小的,由此,我们可得到关于peak bag label相似性的约束项为:
(7)R2({αi}i=1N,D)=i=1Nj,k=1niCij,k(αijαik)2=12i=1NαiT(DiCi)αi

同样的,对于valley bag label,有:
(8)R2({βi}i=1N,D)=12i=1NβiT(DiCi)βi

Complete Formulation

综上,总的优化目标是:

(9)minw,{αi,βi}i=1NL(w,{αi}i=1N,D)+λ0L0(w,{βi}i=1N,D)+λ1R1(w,D)+λ2R2({αi}i=1N,D)+λ3R2({βi}i=1N,D)+λ42w2s.t.αiSα(αi),βiSβ(βi),Vi(αi+βi)=0,i=1,2,,N

上述的约束我们没办法直接拿来求解,所以我们先进行转化。定义ηi={ηi1,ηi2,,ηini}Rni表示一个segment中的相关性的增量(relevance increments),且η0。peak relavance可以被表示为αi=AηiAi是一个方阵,当jk时,Aij,k=1,否则Aij,k=0。同理对于valley bag label也可以定义一个类似的ui。因为上式的等价的公式为:

(10)minw,{αi,βi}i=1NL(w,{αi}i=1N,D)+λ0L0(w,{βi}i=1N,D)+λ1R1(w,D)+λ2R2({αi}i=1N,D)+λ3R2({βi}i=1N,D)+λ42w2s.t.ηi0,ui0eiT(Aiηi)=1,ei(AiTui)=1,Vi(Aiηi+Aiui)=0,i=1,2,,N

训练模型之后,我们就可以利用y=f(x;w)来对一不知到label的帧就行强度的预测。

相关文章: