論文出處 : Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

Introduction

[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
以往 face detection task 都是建立在欲辨識的人臉是facing up的正面條件下,而實際的狀況中,人臉未必是朝上的狀況,而目前的 detection method 中鮮少是針對 rotation-invariant 的狀況。
文中引進一種方法架構:Progressive Calibration Networks

首先了解文中定義的名詞 Rotation-In-Plane(RIP) angles :
[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
RIP angleY 軸中到額頭上的旋轉角度,向左為負,向右為正,如上圖,該圖的 RIP angle120{-120^\circ}


文中提及以下三種傳統face rotation問題的解決方法以及優缺點比較
[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
Data Augmentation :
將原本訓練資料做旋轉,使model學習到旋轉過後的人臉,雖然方法簡單,但隨著資料分佈變多樣,也需要對應到更大的neural network架構以及運算時間。

[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
Divide-and-Conquer :
分別訓練出對應不同 RIP angle 變化範圍的 model,如 [-45,45],[-135,-45],[-180,-135],[45,135], [135,180], 總共五種範圍,則需要五種 model 來對應,分別預測出各 RIP angle 條件下是人臉的位置分佈與機率,但在因為精準度與範圍種類是取捨,需要耗費較多的運算時間。

[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
Rotation Router :
直接估計出每一張可能是人臉目標的 RIP angle 在將其轉正,再做預測,但 face RIP angle estimation 是一大難題,進而使得 face detection 的表現不佳。


Framework

[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
整體架構為 two-stage modelregion-proposal 之後選出可能為一目標的 candidate 作為 PCNinput,主要分成三個 stage,在每個階段裡面逐步縮小 RIP angle,且逐步淘汰最不可能是臉的 candidate,每一個 stage 的輸出有三個:是臉的可能性,臉的位置與邊框大小,臉對應到的 RIP angle estimation

在選擇適當輸入的機制中,輸入資料比照 groundtruthIoU 分為三個種類:
Positive Samples(IoU > 0.7), Suspected Samples(IoU < 0.7 and IoU > 0.4), Negative Samples(IoU < 0.4)
其中,Positive SamplesNegative Samples 可做為訓練是否為人輸入,而 Positive SamplesSuspected Samples尋找臉位置與邊框大小以及 RIP angle estimation 的訓練輸入。

每一個 stage 中的 network 輸入為影像在不同 scaling 的結果,公式如下
PCNi(I)=[f,t,g]{PCN_{i}(I) = [f, t , g]}

  • iistate number , i{i \in} { 1,2,3 ~1,2,3~}
  • ffface confidence score,代表輸入影像為臉的可能程度。
  • ttprediction of bonding box regression,為一向量,內容為預測 bonding box 的位置以及邊框大小。
  • ggorientation score,即 PIR angle estimation 越小則 gg 越大。

Objective 可分為三類 Lcls , Lreg , LcalL_{cls}~,~ L_{reg}~,~ L_{cal}

Lcls=ylog(f)+(1y)log(1f)L_{cls} = ylog(f) + (1-y)log(1-f)

  • yylabellabel,是臉為 11,不是臉為 00

Lref=S(t,t){L_{ref} = S(t,t^*)}

  • t,tt,t^* 分別為 bonding box regression predictionbonding~box~regression~prediction 以及 ground truthground~truth 的結果,其向量內部包含 (a,b)(a , b)topleft  coordinatetop-left~~coordinate,而 ww 代表偵測目標的邊框 widthwidth
  • S(.) functionS(.)~function 為參考Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,在此則不贅述。

Lcal=ylog(g)+(1y)log(1g)L_{cal} = ylog(g) + (1-y)log(1-g)

  • gg 代表的是 PIR angle estimation 的反指標,而該 Object 則是假定在額頭向上為正的狀況下盡可能的使 gg 越大。

training process 為以 LclsL_{cls}primary,並給予 Lreg , LcalL_{reg}~,~ L_{cal} 權重,使得 Lcls+λregLreg+λregLcalL_{cls}+ \lambda _{reg}L_{reg}+ \lambda _{reg}L_{cal} 最小化。


Progressive Calibration Networks

[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
每個 stage network 中會估計其影像的 RIP angle 並修正之,但是不同於直接估計的地方在於直接估計的結果往往不如預期,但若是以 coarse-to-fine 的分類方式逐漸修正角度在實驗結果上則會有不錯的表現。

stage 1 中,僅先判斷圖像額頭較為在上還是在下,故 Calibration Class 為兩類,若 g&gt;0.5g &gt; 0.5 時則為額頭在上,不做照片的翻轉,紀錄 θ1\theta_{1}00^\circ,反之則判定為額頭在下,則將照片做 180180^\circ 的翻轉,紀錄 θ1\theta_{1}180180^\circ,經過 stage 1 後,則有效地將 RIP angle 的範圍從 [-180,180] 限縮到 [-90,180]

stage 2 中,更進一步將 RIP angle 的可能區間,即 Calibration Class ,區分為三類 :[-90,-45], [-45,45], [45,90]
其判斷依據為 找到 argmin(gi)argmin(g_{i}) 對應的參數 ii,將對應到的可能角度再分為 90,0,90-90^\circ,0^\circ,90^\circ 三個種類,即 θ2\theta_{2} 可能的三種結果。

stage 3 中,RIP angle 範圍僅限縮在 [-45,45] 內,此時則明確的估計出旋轉角度,以及 bonding box regression
[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
如上述過程,可由 θ1,θ2,θ3\theta_{1},\theta_{2},\theta_{3} 求得 θRIP\theta_{RIP} θRIP=θ1+θ2+θ3\theta_{RIP} = \theta_{1}+\theta_{2}+\theta_{3}


Evaluation Results

PCN 好處總結可歸為兩個,其一為對於多樣性的魯棒,其二為計算時間較少,將原本 360360 個類別的問題,簡化為少數的類別,可減少不必要的運算,在 stage 1stage 2accuracy 分別為 9595% 及 9696% 而 stage 3mean error88^\circ,相較於參考文獻 Rotation Invariant Neural Network-Based Face Detection9090% accuracy 有顯著的改善,且其運算速度上較 Faster R-CNN (VGG16), SSD500(VGG16), R-FCN (ResNet-50) 來的快且準確率較高。
[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
[論文筆記] Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

相关文章: