谷歌提出ViTGAN：使用視覺Transformer訓練GAN

作者：由 CVer計算機視覺發表于文化時間：2021-07-12

ViTGAN：在GAN中使用視覺Transformer （ViTs），並提出了確保其訓練穩定性和提高其收斂性的新技術，表現SOTA！效能優於TransGAN、StyleGAN2等網路。

注1：文末附【Transformer】和【GAN】交流群

注2：整理不易，歡迎點贊，支援分享！

ViTGAN

ViTGAN: Training GANs with Vision Transformers

作者單位：UC San Diego，谷歌

論文：

https：//

arxiv。org/abs/2107。0458

最近，視覺Transformer（ViT）在影象識別方面表現出具有競爭力的效能，同時需要較少的視覺特定歸納偏差。

在本文中，我們研究了這種觀察是否可以擴充套件到影象生成。為此，我們將 ViT 架構整合到生成對抗網路（GAN）中。

我們觀察到現有的 GAN 正則化方法與 self-attention 的互動很差，在訓練過程中導致嚴重的不穩定。為了解決這個問題，我們引入了新穎的正則化技術來訓練帶有 ViT 的 GAN資料集上實現了與最先進的基於 CNN 的 StyleGAN2 相當的效能。

生成器：

實驗結果

CVer-Transformer交流群

建了CVer-Transformer交流群！想要進Transformer學習交流群的同學，可以直接加微訊號：

CVer6666

。加的時候備註一下：

Transformer+學校/公司+暱稱

，即可。然後就可以拉你進群了。

CVer-GAN交流群

已建立CVer-GAN微信交流群！想要進GAN學習交流群的同學，可以直接加微訊號：

CVer9999

。加的時候備註一下：

GAN+學校/公司+暱稱

，即可。然後就可以拉你進群了。

強烈推薦大家關注

CVer知乎

賬號和

CVer

微信公眾號，可以快速瞭解到最新優質的CV論文。

猜你喜歡