快手BlendGAN粗讀
快手最近開源了接收在NIPS2021上的一篇工作,BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation,不用試就知道效果肯定不錯。畢竟公司裡出品的成果大多效能都是毋庸置疑的,而且整篇文章的設計也是比較直接的。話不多說,進入正題。
本文的目標是Arbitrary Stylized Face Generation ,為了實現這樣的任務,提出了一個靈活的融合機制和任意風格的資料集(AAHQ)。其中涉及了style transfer, styleGAN, contrastive learning 等相關知識。
主要模型結構如下,
一個
self-supervised style encoder
去學習準確的風格化資訊,真實的人臉身份資訊在訓練中從正態分佈中進行取樣,然後經過MLP將兩者對映到w空間,得到
和
,再提出
WBM
模組去進行融合,最後將融合後的
向量送入styleGAN網路結構中,得到最終生成效果。
其中,有兩個關鍵模組。
一是self-supervised style encoder
作者採用style transfer中提取風格的方式,利用預訓練好的VGG-19進行風格提取,同時融入Gram matrix,得到風格向量,然後利用對比學習的方式,拉近augmented image和原圖之間的距離,從而得到較為準確的風格資訊。
接下來,就是融合過程WBM了。
透過
以及
來調控style融入的大小。其中,
是人為設定的,作者發現當
生成的結果能在風格化和人臉shape形狀之間得到一個較為平衡的結果。
判別器的使用和
之間有具體的關係,感興趣的可以去閱讀下原文哈。
目前來看,作者是設定不同的
進行訓練,然後去對比的實驗結果。針對這個超參,如果能夠也是learnable的,可能會更好一點吧。本文也是簡單的粗讀一下,但是對比學習的style transfer以及這個資料集個人還是比較感興趣的了。