人臉表情識別（四）基於圖片的人臉表情識別論文推薦（2019-2020）

作者：由 Menpinland 發表于攝影時間：2021-02-09

1. 對姿態和身份魯棒的人臉表情識別方法

之前的研究表明人的頭部姿態以及身份都會影響人臉表情識別的效果，頭部姿態的改變會讓演算法難以用統一的模式去識別相同的表情，而相同的身份容易讓演算法誤認為同一個人屬於同一類（相同身份有許多人臉特徵相同），因此許多研究者針對這兩類問題提出了相應的解決方案。但很少有工作能較好地同時解決姿態跟身份帶來的問題，所以Wang等人［1］基於對抗學習的思想提出了對姿態和身份較為魯棒的人臉表情識別方法（如圖1所示）。該方法輸入相同表情但姿態跟身份不一樣的兩張人臉，透過對抗學習的方式去除掉姿態跟身份的變化，僅保留表情的特徵資訊再進行識別，從而達到對姿態和身份都較為魯棒的目的。

推薦指數：✦✦✦✦✧

圖1｜［1］中提出方法示意圖

2. 含手工特徵的自適應加權損失函式

在其他一些分類問題上，前人的研究發現手工設計的特徵跟深度學習獲得的特徵有相似之處且互補，選用合適的策略將手工特徵嵌入到深度學習中可有效提升分類的效果。Xie等人［2］發現在人臉表情識別領域，並沒有太多的工作深入研究如何將手工特徵跟深度特徵相融合，因此構建自適應的加權損失函式融合手工特徵以及深度特徵。

推薦指數：✦✦✦✧✧

圖2｜［2］中提出的方法示意圖

3. 圖結構表示和雙向迴圈神經網路

Zhong等人［3］的工作最大的創新之處在於採用圖結構進行人臉表情表示，隨後再用雙向迴圈神經網路以及全連線層進行特徵提取和分類。不過無論從理論解釋上還是實驗結果上，這種方法暫時還沒有特別明顯的優勢。

推薦指數：✦✦✧✧✧

圖3｜［3］中提出方法示意圖

4. 聯合人臉表情的生成與識別

針對當前人臉表情識別資料較少的問題，Yan等人［4］提出聯合人臉表情生成與識別的方法（方法框架如圖4所示）。簡單來說，就是透過生成對抗網絡合成虛擬的表情圖片，這些虛擬的圖片能夠輔助識別的網路提升表情識別的效果，而識別的網路能夠引導GAN生成更逼真的虛擬表情圖片。

推薦指數：✦✦✦✧✧

圖4｜［4］提出的方法架構

5. 空間注意力+多路連線的人臉表情識別

Xie等人［5］主要圍繞最常用的人臉表情識別方法——卷積神經網路進行更有針對性的改進，在多個數據集上取得了較好的識別效果。方法主要分成兩大模組（如圖5）：（1）attention-based Salient Expressional Region Descriptor （SERD），這個模組先從在大型人臉資料集上進行過預訓練的模型微調得到特徵圖，再加入空間注意力機制，突出表現出表情的區域；（2）Multi-Path Variation-Suppressing Network （MPVS-Net），這個模組簡單來說就是將一個人臉表情特徵同多個隨機相同表情的人臉特徵進行比對，降低不同屬性的影響（性別，人種等），訓練出來後，得到具有明顯區分性的特徵向量再進行全連線和分類。在2020年情感計算頂級期刊《IEEETransactions on Affective Computing》中，Fan等人［6］同樣引入了注意力機制，以及透過雙階段訓練的方法降低不同屬性對錶情識別的影響（方法結構如圖6）。

推薦指數：✦✦✦✦✧

圖5｜［5］提出的模型結構

圖6｜［6］提出方法示意圖

6. 利用對抗學習提升帶遮擋表情識別效果

跟姿態變換、光照問題一樣，遮擋問題也是人臉表情識別所需面臨的一項挑戰。Pan［7］等人基於對抗學習的思想，提出了一個有效提升含遮擋的人臉表情識別網路（方法框架如圖7所示）。在訓練階段，網路利用Resnet對遮擋和非遮擋人臉分別進行訓練得到

$\hat y_O$

和

$\hat y_C$

兩組特徵，隨後透過設計的五個損失函式對網路進行最佳化。五個損失函式分別為：（1）針對

$\hat y_O$

的交叉熵損失函式；（2）

$\hat y_O$

與

$\hat y_C$

相似度損失函式；（3）針對

$\hat y_O$

和

$\hat y_C$

交叉熵函式的LIR（Loss Inequality Regularization）損失函式；（4）利用遮擋與非遮擋特徵聯合訓練的生成對抗損失函式；（5）利用遮擋特徵實現去除遮擋的損失函式。最終五個損失函式按照一定權重進行相加，權重透過網格搜尋的方法進行選擇。同時考慮到含遮擋的人臉表情圖片較少，作者透過人工合成的方式構建含遮擋的人臉表情資料。2020 ACM MM上另外一篇文章［8］也是設計多個損失函式的組合引導網路提升含遮擋人臉表情的識別效果（網路結構如圖8所示）。

推薦指數：✦✦✦✦✧

圖7｜［7］提出的方法框架示意圖

圖8｜［8］提出的網路結構

7. 高效網路整合

AAAI 2020的一篇文章，總體來說，Siqueira等人［9］工作的核心思路就是網路整合，根據資料集型別的不同（實驗室條件下和自然狀態下的不同）設計不同的網路結構，創新性的話並無太大亮點。不過，文章提供了一定的理論支撐，以及提供了基於所提方法的非常完整的表情識別框架，識別效率高，所以還是值得推薦。

推薦指數：✦✦✦✦✧

程式碼

圖9｜［9］中針對不同型別資料集提供不同的整合方案

8. 抑制不確定性表情

當前大型人臉表情資料集存在著幾個不確定因素：人臉表情模稜兩可，圖片質量較低以及標註者會帶有主觀偏見，這些問題的存在也容易讓模型訓練過程中陷入“誤區”。針對上述問題，Wang等人［10］提出了“自愈網路”（Self-Cure Network，SCN）用於在訓練過程中動態的調整標籤從而提升識別的效果。整個網路包含三大主要部分（如圖10所示）：（1）樣本經過一個主幹卷積神經網路生成特徵，特徵經過一層全連線層和sigmoid函式，得到一個表達樣本標籤一致性的引數（該引數越接近1，即代表這個樣本跟標籤越是對應一致的）；（2）得到樣本標籤一致性的引數後，經過一個正則化網路不斷學習後，網路會自動歸類“好”樣本與“壞”樣本，並更加突出兩者間的差異；（3）對於“壞樣本”，如果其預測所有表情機率的最大值減去其標註表情的機率大於一個閾值，則修改為最大機率的類別。同年另外一篇CVPR文章［11］也是針對人臉表情識別中的標註問題提出了基於圖表示方法。

推薦指數：✦✦✦✦✦

程式碼

圖10｜［10］中提出的方法示意圖

基於圖片的人臉表情識別的工作，尤其是近兩年的優秀的工作，其實遠不止本文提到的那些。一些筆者不太熟悉的領域，如基於弱監督［12］，半監督［13］的人臉表情識別、基於動態類別增長的人臉表情識別［14］、基於域自適應（遷移學習）的跨資料集人臉表情識別［15］等，在本文就不再對這些方法做過多的描述，有興趣的小夥伴可自行檢視。

小結

從近兩年的代表性工作我們也可以看到，除了用非常新穎方法去提升識別效果外。對於基於圖片的人臉表情識別方法，越來越多研究迴歸到這個領域所存在的問題（姿態變化、身份影響以及標註不一等）並提出針對性的解決方案。但當前仍然沒有方法能解決所有基於圖片的人臉表情識別所存在的問題，所以對於之後該領域的工作依然值得期待。下一篇專欄我們將把目光轉向基於影片的人臉表情識別，敬請期待~

參考文獻

［1］ Wang C， Wang S， Liang G。 Identity-and Pose-Robust Facial Expression Recognition through Adversarial Feature Learning［C］//Proceedings of the 27th ACM International Conference on Multimedia。 2019： 238-246。

［2］ Xie W， Shen L， Duan J。 Adaptive Weighting of Handcrafted Feature Losses for Facial Expression Recognition［J］。 IEEE Transactions on Cybernetics， 2019。

［3］ Zhong L， Bai C， Li J， et al。 A Graph-Structured Representation with BRNN for Static-based Facial Expression Recognition［C］//2019 14th IEEE International Conference on Automatic Face & Gesture Recognition （FG 2019）。 IEEE， 2019： 1-5。

［4］ Yan Y， Huang Y， Chen S， et al。 Joint Deep Learning of Facial Expression Synthesis and Recognition［J］。 IEEE Transactions on Multimedia， 2019。

［5］ Xie S， Hu H， Wu Y。 Deep multi-path convolutional neural network joint with salient region attention for facial expression recognition［J］。 Pattern Recognition， 2019， 92： 177-191。

［6］ Fan Y， Li V， Lam J C K。 Facial Expression Recognition with Deeply-Supervised Attention Network［J］。 IEEE Transactions on Affective Computing， 2020。

［7］ Pan B， Wang S， Xia B。 Occluded facial expression recognition enhanced through privileged information［C］//Proceedings of the 27th ACM International Conference on Multimedia。 2019： 566-573。

［8］ Xia B， Wang S。 Occluded Facial Expression Recognition with Step-Wise Assistance from Unpaired Non-Occluded Images［C］//Proceedings of the 28th ACM International Conference on Multimedia。 2020： 2927-2935。

［9］ Siqueira H， Magg S， Wermter S。 Efficient facial feature learning with wide ensemble-based convolutional neural networks［J］。 arXiv preprint arXiv：2001。06338， 2020。

［10］ Wang K， Peng X， Yang J， et al。 Suppressing uncertainties for large-scale facial expression recognition［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition。 2020： 6897-6906。

［11］ Chen S， Wang J， Chen Y， et al。 Label Distribution Learning on Auxiliary Label Space Graphs for Facial Expression Recognition［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition。 2020： 13984-13993。

［12］ Zhang F， Zhang T， Mao Q， et al。 Geometry Guided Pose-Invariant Facial Expression Recognition［J］。 IEEE Transactions on Image Processing， 2020， 29： 4445-4460。

［13］ Florea C。， Badea M。， Florea L。， Racoviteanu A。， Vertan C。（2020） Margin-Mix： Semi-Supervised Learning for Face Expression Recognition。 In： Vedaldi A。， Bischof H。， Brox T。， Frahm JM。（eds） Computer Vision – ECCV 2020。 ECCV 2020。 Lecture Notes in Computer Science， vol 12368。 Springer， Cham。

［14］ Zhu J， Luo B， Zhao S， et al。 IExpressNet： Facial Expression Recognition with Incremental Classes［C］//Proceedings of the 28th ACM International Conference on Multimedia。 2020： 2899-2908。

［15］ Zhou L， Fan X， Ma Y， et al。 Uncertainty-aware Cross-dataset Facial Expression Recognition via Regularized Conditional Alignment［C］//Proceedings of the 28th ACM International Conference on Multimedia。 2020： 2964-2972。

標簽：人臉表情識別 Recognition 2020

上一篇:剛拍半年，可以幫我指導一下嘛 ?

下一篇：淺談慢性非萎縮性胃炎的診斷和治療