您當前的位置:首頁 > 攝影

CVPR2016 論文快訊:人臉專題

作者:由 程程 發表于 攝影時間:2016-08-15

深度學習大講堂致力於推送人工智慧,深度學習方面的最新技術,產品以及活動。請關注我們的知乎專欄!

前言

人臉識別,作為深度學習應用一個比較具有難度的方向,近幾年一直得到工業界和學術界的廣泛關注。目前大部分人瞭解到的人臉識別的效能都是從LFW資料庫說起,大家一談起人臉識別,都會認為目前人臉識別已經足夠好了,好到確認效能已經到了 99。77%。但是人臉識別真的做到了我們看到的數字那樣完善嗎?遠遠沒有!

LFW資料庫僅包含了部分場景的姿態、背景等變化,而且大部分實驗結果都是基於嚴格提取關鍵點、人臉矯正後的訓練樣本和測試樣本(今年CVPR做face alignment仍然是個很熱門的方向)得到的。對於實際應用中的光照、對比度、抖動、焦點、模糊、遮擋、解析度、姿態等因素影響人臉識別的複雜因素[12]依然沒有得到完全解決。因此,一些更具有挑戰性的人臉資料庫也釋出出來,比如MegaFace、IJB-A等資料庫、微軟百萬名人資料庫(不過這個資料庫比較noisy)。

此外,影片人臉識別也是目前仍然比較難的一個方向,今年沒有出現LSTM或者attention model去做影片中人臉識別的論文,反倒是光流、LSTM做影片中Events, Actions, and Activity Recognition的論文比較多。

本次會議大家可以關注人臉的以下幾個點:人臉老齡化預測[1]、人臉的表情捕捉和復現[2]、人臉alignment(偏向於三維alignment、姿態變化較大情況下的alignment)、同時訓練的級聯CNN做人臉檢測[3]、大規模人臉檢索問題(度量學習)[4]、深度度量學習(常用於學習得到人臉的具有區分性的特徵)[5]、人臉識別問題[6,7,8,9,10,11]、更具挑戰性的人臉資料集MegaFace的提出等。

接下來對CVPR2016上與人臉相關的部分文章進行介紹。

一、深度度量學習

1.Deep Metric Learning via Lifted Structured Feature Embedding

這篇文章來自斯坦福大學 Hyun Oh Song等人的工作。之所以介紹這篇論文,是因為deep metric learning是深度學習應用於人臉識別領域的一個最常用的方法,利用比較好的目標函式可以學到更具有區分性的人臉特徵。目前比較經典的幾篇人臉識別的論文都有用到deep metric learning的方法,比如facebook公司的DeepFace[13]裡面有用到加權卡方距離和contrastive loss[15]兩種度量方式。香港中文的DeepID2[14]裡面有用到contrastive loss的度量。Google公司的Facenet裡面有用到triplet loss[16]的度量。而這篇論文作為CVPR2016的oral paper,提出了利用訓練的batch裡面所有相同label的人臉對和不同label的人臉對的資訊進行語義特徵對映,來使得同類之間的距離更小,異類之間的距離更大。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

上圖中,c是作者論文中挑選資料的示意圖,紅色表示相同label,藍色表示不同label。不同於適用於verification的contrastive loss,和利用hard neg和hard positive的做identification的triplet loss,該論文的最佳化目標如下圖,可以看到在選擇資料進行訓練的時候,作者實際上是利用了pair (i,j)的對應的所有的不同label的人臉資訊。這樣我們可以在當前batch的最佳化中,挑選出距離當前對(i,j)最小的負樣本,從而使得其距離最大化。同時,也加了使得同類之間距離最小化的限制。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

2. CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval

二、人臉識別

1. Pose-Aware Face Recognition in the Wild

這篇文章來自南加州大學Iacopo Masi,主要關注點在於人臉識別中的大姿態變化問題。不同於當前大部分利用單一模型透過大量訓練資料,或者矯正人臉到正臉來學習姿態不變性的方法。作者透過使用五個指定角度模型和渲染人臉圖片的方法處理姿態變化。作者主要利用的資料集是IJB-A資料庫,同時對比了其與LFW的挑戰性不同。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

給定一個需要驗證的模版對,每張圖片都經過一個姿態分類器,然後不同的姿態輸入到不同的CNN模型,從而提取到特徵,並且匹配以得到分數。對於正面和側面都有一個平面內對齊,對於0度角、40獨角側面、75度角側面都有一個平面外旋轉矯正。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

2.Multi-view Deep Network for Cross-view Classification

這篇文章來自中科院計算所山世光老師組Meina Kan的工作。類似於上篇論文,也是針對人臉識別中的跨檢視或跨姿態問題提出對應的解決辦法,這篇論文嘗試移除人臉資料之間的跨模態差異性,並且找尋跨模態之間的非線性的差異性和模態不變性表達。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

作者提出的MvDN模型,由兩個子網路組成。模態特定子網路(view-specific subnetwork)用於移除指定模態的差異性,注意這裡的多個自網路1,2,。。。,v是多路複用的方式,也就是說公共子網路獨立的連線到指定模態的子網路。接下來的公共子網路(common subnetwork)用於獲取所有模態的公共特徵表達。作者使用Rayleigh quotient objective來學習整個網路。目標函式如下,

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

其中樣本類內離散度表示為下圖,最小化類內離散度矩陣確保了跨模態之間的同類樣本間的距離更近。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

樣本類間離散度表示為下圖,這樣可以最大化跨模態不同類之間的距離。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

3. Sparsifying Neural Network Connections for Face Recognition

這篇文章來自香港中文湯曉鷗老師組Yi Sun大神的作品,在此膜一膜。早在DeepID2+裡面,作者就做過sparse的一些解釋,認為稀疏性對於卷積神經網路應用於人臉識別效果有提升。最近一年多,關於pruning(英偉達和斯坦福合作的論文[17])和sparse應用於深度學習的文章比較多,也是神經網路最佳化的一個重要方向。這篇文章實際上是應該有類似於stacked Auto-Encoder的逐層單獨訓練得到初始化引數的靈感。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

作者以迭代的方式來稀疏convnet,每次僅僅對其中一層加稀疏限制,得到的整個模型作為下次迭代的初始化引數。作者從最後一個卷積層開始加稀疏限制,並且固定前面幾層的引數。然後對倒數第二層區域性連線層加稀疏限制,固定其他層的引數。依次從後往前。作者之所以先刪除高層的連線的原因是因為,全連線層和區域性連線層在深度模型中有大量的引數,而這些層裡面的大量引數都是冗餘的。同時Yi Sun也提到了具體如何用caffe去實現相關操作。

4. The MegaFace Benchmark: 1 Million Faces for Recognition at Scale

這篇論文來自華盛頓大學的大規模人臉識別測試資料集。MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。這是第一個在一百萬規模級別的面部識別演算法測試基準。

現有臉部識別系統仍難以準確識別超過百萬的資料量。為了比較現有公開臉部識別演算法的準確度,華盛頓大學在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個專案旨在研究當資料庫規模提升數個量級時,現有的臉部識別系統能否維持可靠的準確率。

下圖是人臉識別常用資料庫的規模介紹。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

5. Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition

這篇論文來自中國科學院深圳先進技術研究院,主要介紹如何年齡不變性人臉識別(AIFR)。作者在幾個常用的人臉老齡化資料集上面做了實驗,比如MORPH Album2, FGNET, CACD-VS。在CACD-VS資料庫上超過了人類投票識別的結果。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

上圖介紹了作者提出的LF-CNN以及訓練過程,前面三個卷積層是正常的卷積,後面的兩個卷積層是區域性卷積層(最先在deepface論文中提出),作者用的啟用函式是PReLU,同時使用Latent Identity Analysis (LIA)方法來學習全連線層部分的引數。

作者分別使用了兩部分資料來訓練這兩個並行的網路,第一部分是用於學習全連線層引數標註年齡和身份label的資料,第二部分是用於學習卷積層引數的只標註了身份label的資料。整個訓練過程中,學習卷積層引數的時候,全連線層引數固定,並且最後既使用softmax loss,又使用contrastive loss。在學習全連線層引數的時候,卷積層的引數固定。具體的全連線層引數的學習過程可以參見論文以及下圖,具體不做贅述。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

三、人臉老齡化

1. Recurrent Face Aging

這篇文章是義大利特倫託大學的論文,也是CVPR2016的oral paper,主要是做人臉老齡化預測。以下圖是作者論文模型的效果示意圖,最左邊一列是輸入的圖片,其他的幾列分別是模型產生的更老齡化的人臉。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

作者認為傳統的將年齡分組成離散組合,然後對於每個來源於相鄰的年齡段組成的人臉對進行單步的特徵對映方法忽略了相鄰年齡段之間的in-between evolving states。由於人臉老齡化是一個平緩的過程,所以作者認為透過平緩的轉換變換更合適。因此,作者利用兩層的門迴圈單元作為基本迴圈模組,其中的底層將一個年輕的人臉編碼成隱式表達,頂層用於將隱式特徵表達解碼成相應的更老的人臉。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

作者使用兩個步驟來進行操作。第一步是人臉歸一化,第二步是老齡化模式學習。作者透過迭代最佳化特徵臉和光流估計的方法來做人臉歸一化。迴圈人臉老化模組如上圖所示,利用RNN來建模相鄰年齡段之間的老化模組。RFA透過之前狀態人臉來產生進一步老化的人臉。訓練好後,我們可以透過0-5歲年齡段圖片的輸入,一步步得到61-80年齡段的人臉老齡化預測結果。

2. Ordinal Regression With Multiple Output CNN for Age Estimation

四、表情捕捉、復現

1. Face2Face: Real-time Face Capture and Reenactment of RGB Videos

先來看段振奮人心的demo展示吧。實現表情捕捉,然後復現input video的表情。

http://

weibo。com/p/23044490fdc

7728d1859aff62fb4ca62f2eba8

[一個小故事,當時cvpr2016現場,作者打算演示下demo,結果開啟visual studio之後,就崩了o(〃‘▽’〃)o]

女生的表情作為輸入源,將其表情map到施瓦辛格臉上。

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

這篇論文也是CVPR2016的oral paper。論文中能夠實時重現一個人說話時的動作和表情,並將其對映到(影片中)另外一個人的臉上。該軟體有一個強大的研究團隊,包括來自普朗克資訊學研究所(Max Planck Institute for Informatics)、埃朗根紐倫堡大學(University of Erlangen-Nuremberg)和斯坦福大學的研究人員。

這個技術的原理是透過一種密集光度一致性辦法(Dense Photometric Consistency measure),達到跟蹤源和目標影片中臉部表情的實時轉換,由於間隔的時間很短,使得“複製”面部表情成為可能,但現在還沒辦法實現聲音也一樣模仿出來。[由於對這部分不是很瞭解,所以部分摘自新聞資訊(〜^㉨^)〜]

五、人臉檢測

1.Joint Training of Cascaded CNN for Face Detection

2. WIDER FACE: A Face Detection Benchmark

六、人臉對齊

1. Face Alignment Across Large Poses: A 3D Solution.

2. Unconstrained Face Alignment via Cascaded Compositional Learning.

3. Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders.

4. Mnemonic Descent Method: A Recurrent Process Applied for End-To-End Face Alignment.

5. Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting.

七、人臉重建

1. Automated 3D Face Reconstruction From Multiple Images Using Quality Measures.

2. A Robust Multilinear Model Learning Framework for 3D Faces.

3. Adaptive 3D Face Reconstruction From Unconstrained Photo Collections.

4. A 3D Morphable Model Learnt From 10,000 Faces.

結語

總的來說,CVPR2016會議中關於人臉的論文仍然有很多,涉及到計算機視覺,圖形學,深度學習等等方面,CVPR的工業界展示上面,也有很多令人振奮的demo。很多廠商都參展了,比如百度IDL,騰訊優圖,商湯,格靈深瞳,曠視科技等。除了本文提到的論文,感興趣的同

學和老師可以在CVPR2016官網查詢更多論文:

http://

cvpr2016。thecvf。com/pro

gram/main_conference

所有pdf版本友善版下載連結:

http://www。

cv-foundation。org/opena

ccess/CVPR2016。py

已開源的所有論文code的下載連結:

https://

tensortalk。com/?

cat=conference-cvpr-2016&t=type-code

致謝:

本文作者特別感謝中科院計算所闞美娜副研究員對本文的修改和建設性意見。

參考文獻

[1] Wang W, Cui Z, Yan Y, et al。 Recurrent Face Aging[J]。

[2] Thies J, Zollhöfer M, Stamminger M, et al。 Face2face: Real-time face capture and reenactment of rgb videos[J]。 Proc。 Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, 1。

[3] Qin H, Yan J, Li X, et al。 Joint Training of Cascaded CNN for Face Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2016: 3456-3465。

[4]CP-mtML: Coupled Projection Multi-Task Metric Learning for Large Scale Face Retrieval。

[5] Song H O, Xiang Y, Jegelka S, et al。 Deep metric learning via lifted structured feature embedding[J]。 arXiv preprint arXiv:1511。06452, 2015。

[6] Masi I, Rawls S, Medioni G, et al。 Pose-Aware Face Recognition in the Wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2016: 4838-4846。

[7] Kan M, Shan S, Chen X。 Multi-view Deep Network for Cross-view Classification[J]。

[8] Sun Y, Wang X, Tang X。 Sparsifying Neural Network Connections for Face Recognition[J]。 arXiv preprint arXiv:1512。01891, 2015。

[9] Feng Q, Zhou Y, Lan R。 Pairwise Linear Regression Classification for Image Set Retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2016: 4865-4872。

[10] Kemelmacher-Shlizerman I, Seitz S, Miller D, et al。 The megaface benchmark: 1 million faces for recognition at scale[J]。 arXiv preprint arXiv:1512。00596, 2015。

[11] Wen Y, Li Z, Qiao Y。 Latent Factor Guided Convolutional Neural Networks for Age-Invariant Face Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2016: 4893-4901。

[12] Abaza A, Harrison M A, Bourlai T。 Quality metrics for practical face recognition[C]//Pattern Recognition (ICPR), 2012 21st International Conference on。 IEEE, 2012: 3103-3107。

[13] Taigman Y, Yang M, Ranzato M A, et al。 Deepface: Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2014: 1701-1708。

[14]Sun Y, Chen Y, Wang X, et al。 Deep learning face representation by joint identification-verification[C]//Advances in Neural Information Processing Systems。 2014: 1988-1996。

[15]Hadsell R, Chopra S, LeCun Y。 Dimensionality reduction by learning an invariant mapping[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR‘06)。 IEEE, 2006, 2: 1735-1742。

[16] Schroff F, Kalenichenko D, Philbin J。 Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2015: 815-823。

[17] Han S, Pool J, Tran J, et al。 Learning both weights and connections for efficient neural network[C]//Advances in Neural Information Processing Systems。 2015: 1135-1143。

該文章屬於“深度學習大講堂”原創,如需要轉載,請聯絡@果果是枚開心果.

作者簡介:

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題

湯旭,

上海科技大學資訊學院研究生二年級,導師為“青年千人”高盛華教授。百度深度學習研究院人臉組實習生。研究方向為深度學習與計算機視覺(人臉識別等),個人郵箱:tangxu@shanghaitech。edu。cn

原文連結:http://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=2650325063&idx=1&sn=8430ef3dbd2d871c63f2b7fbac90c0b4&scene=4#wechat_redirect

歡迎大家關注我們的微信公眾號,搜尋微信名稱:深度學習大講堂

CVPR2016 論文快訊:人臉專題

CVPR2016 論文快訊:人臉專題