CVPR 2020 Poster丨ACGPN: 基於影象的虛擬換裝新思路

作者：由商湯科技SenseTime 發表于書法時間：2020-06-19

編者按：

在CVPR 2020上，商湯科技提出的自適應內容生成保留網路ACGPN值得關注，該工作為基於影象的虛擬換裝提供了新的思路。並且該工作提出了一種新穎的衡量虛擬換裝難度的指標，並將所用資料集劃分成了三個難度。相比於主流方法，ACGPN不管是視覺質量上還是量化實驗上都有明顯優勢。

回顧

介紹演算法之前，我們先來回顧一下基於影象的虛擬換裝的歷史。傳統的虛擬換裝基於3D匹配，比如一些換裝墨鏡，都是生成一個跟蹤人物的虛擬貼圖。而基於影象的虛擬換裝，可以直接生成換好裝的人物圖片。 VITON提供了一個被廣泛使用的pipeline，現在的方法大多遵循類似的框架。

利用網路泛化能力的重構學習

由於同一個模特在同一姿勢下穿著不同衣服的資料集較難獲得，常見做法是，將人物圖片的監督資訊減弱，再將與人物身上同樣的inshop-clothes（平鋪的衣服正面大圖）穿在這個處理過後的表達上。將圖片的監督資訊減弱防止過強的參考使得網路無法泛化到不同的衣服上。也就是提取關鍵點，模糊形狀等來作為一個人物的表達，再重構原來的影象。經典的衣服無關人物表達（clothing-agnostic person representation）如下圖所示。

CP-VTON和VITON都採用了這一表達。但是由於提供的先驗資訊較少，原圖的監督指導已經被壓縮到了極小值，雖然可以很好的解決原圖原有服裝對生成的干擾，但也難以讓網路學會對複雜細節的建模。

2. 基於Thin-Plate Spline (TPS)變換的服裝變形模組

VITON：

如圖所示，VITON透過先生成衣服mask和原始inshop-clothes的mask來計算TPS變換的引數，將這套引數使用到inshop-clothes上，生成一個變形衣服圖。之後會和之前生成的一個coarse人物結果，一起refine出最終結果。整個流程是2-stage模式。VITON在進行影象對齊的時候，利用Shape Context描述子提取影象特徵完成對齊，後來的CP-VTON則把這個部分用卷積神經網路代替。

CP-VTON：

CP-VTON基於VITON這個工作，增加了一個“GMM模組”，使用一個網路來回歸TPS變換的引數，拋棄了之前利用shape context影象descriptor進行匹配的方法，變成learning-based，奠定了這一模組的一般設計方法。

動機

現有方法存在的問題

我們拿CP-VTON和VITON舉例，以上為CP-VTON的文章中報告的影象結果，我們可以看到以下幾點問題：

人物的肢體仍然較為模糊

對於下裝很難做到清楚的保留

衣服的紋理容易產生過度形變

當我們執行兩者的官方原始碼，得到下圖的結果，我們還能發現一個更為本質的問題。

這兩個方法都無法處理人物肢體與衣服有交叉的情況。

一旦手擋在了衣服前，或者姿勢較為複雜，往往圖片會丟失肢體細節，手指糊成一團。這給面向真實場景應用的虛擬換裝系統的實現，帶來極大的隱患與阻力，畢竟使用者在使用的時候，姿勢是各種各樣的。為了解決這一問題，我們使用語義分割來代替原有的衣服無關人物表達。

網路設計

該文章提出了一種自適應內容生成保留網路即ACGPN。此方法利用一種layout aware的方法，自適應的判斷哪部分影象是應該保留的，解決了現有方法中，無法對人物肢體與衣服有遮擋的情況的建模，極大程度地降低了生成結果中的偽影以及模糊細節；並透過引入仿射變換的共線性等性質，對變形inshop-clothes中的TPS變換起到約束，使得Logo和花紋不易扭曲變形。

ACGPN首先預測參考影象的語義佈局，然後根據預測的語義佈局自適應地確定內容的生成或儲存。特別地，ACGPN由三個主要模組組成，如圖所示。

第一個是語義生成模組（Semantic Generation Module （SGM）），它使用身體部位和衣服的語義分割來逐步生成暴露的身體部位的蒙版（即，合成的身體部位蒙版）和變形衣服區域的蒙版。與現有技術相反，提出的SGM以兩階段的方式生成語義蒙版，以首先生成身體部位並逐步合成服裝蒙版，這使得參考影象中的原始服裝形狀對於網路完全不可知。

第二部分是衣服變形模組（Clothes Warping Module （CWM）），該模組用於根據生成的語義佈局對衣服進行變形操作。除了基於薄板樣條的方法以外，還對變形最佳化目標引入了二階差分約束，以使變形過程更加穩定，尤其是對於質地複雜的衣服。

最後，內容融合模組（Content Fusion Module （CFM））整合了來自合成的人體部位蒙版，變形的服裝影象和原始人體部點陣圖像的資訊，以自適應地確定合成影象中不同人體部位的生成或儲存。

二階差分約束

在Clothes Warping Module裡面，該文章使用Spatial Transformation Network （STN）利用薄板樣條插值演算法（TPS）對目標衣服進行變形，以保留衣服的紋理細節。但是，僅僅使用現有結構不足以保留精確的紋理細節，尤其是面對複雜姿勢、複雜衣服花紋的時候，更容易出現不匹配的情況。為了解決這一問題，該文章引入一種二階差分約束，對TPS變換中的網格點進行控制。

從圖中我們可以看出沒有該文章的約束，衣服雖然在整體形狀上沒有差異，但是內部花樣會產生較大扭曲。約束的公式為：

表示兩個點之間的斜率。透過這個約束可以引入仿射變換的兩個性質，共線性和對應線段比例相同。從而減少過度的扭曲變形的發生。並且為了防止在求取斜率中會出現的除零錯誤，使用乘積形式：

資料集：VITON Dataset

VITON在Zalando服裝網站（www。zalando。de）蒐集的資料集。它包含大約19，000個影象對，每個影象對都包括一個正面的女性影象和一個上衣影象。刪除無效的影象對後，它會產生16，253個配對，並進一步分為訓練組14，221對和測試組2，032對。

實驗結果

實驗都是在VITON資料集上進行，並且根據姿勢的複雜程度可以分為Easy，Medium，Hard三個等級。 Easy：手放兩側，身體向前； Medium：身體會發生扭曲，肢體與身體輕微遮擋； Hard：肢體與身體有嚴重遮擋。該文章一共從兩個方面證明所提方法，質量性實驗：比較虛擬換裝結果，該文章提出的方法可以更有效地降低偽影提高真實度，並且能更好的保留衣服的紋理細節，達到照片級別的換裝效果；量化指標：透過SSIM和IS以及使用者調查等指標，從另外一個方面證明ACGPN演算法的優越性。

傳送門

ACGPN程式碼目前已經開源，歡迎各位同學使用和交流。

論文地址：

原始碼地址：

References

［1］ Bochao Wang， Huabin Zheng， Xiaodan Liang， Yimin Chen， Liang Lin， and Meng Yang。 Toward characteristic preserving image-based virtual try-on network。 In ECCV（13）， volume 11217 of Lecture Notes in Computer Science， pages 607–623。 Springer， 2018。

［2］ Xintong Han， Zuxuan Wu， Zhe Wu， Ruichi Yu， and Larry S。 Davis。 VITON： an image-based virtual try-on network。 In CVPR， pages 7543–7552。 IEEE Computer Society， 2018。

［3］ Ruiyun Yu， Xiaoqi Wang， and Xiaohui Xie。 Vtnfp： An image-based virtual try-on network with body and clothing feature preservation。 In The IEEE International Conferenceon Computer Vision （ICCV）， October 2019。

標簽：影象衣服 VITON 生成變形

上一篇:聽說，懂酒的人都喝它？！

下一篇：3D列印中的紅蠟到底是什麼？

CVPR 2020 Poster丨ACGPN: 基於影象的虛擬換裝新思路

猜你喜歡

誤讀紅樓：持續性皇帝的新衣妄想症

電磁離合器分離不完全的情況分析

網上看上的衣服不知道自己穿好不好看?

金屬切削過程的描述

arXiv灌水機：機器自動生成論文標題、摘要資訊，還有40+奇妙AI應用