您當前的位置:首頁 > 文化

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

作者:由 CVer計算機視覺 發表于 文化時間:2021-07-12

ViTGAN:在GAN中使用視覺Transformer (ViTs),並提出了確保其訓練穩定性和提高其收斂性的新技術,表現SOTA!效能優於TransGAN、StyleGAN2等網路。

注1:文末附【Transformer】和【GAN】交流群

注2:整理不易,歡迎點贊,支援分享!

ViTGAN

ViTGAN: Training GANs with Vision Transformers

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

作者單位:UC San Diego, 谷歌

論文:

https://

arxiv。org/abs/2107。0458

9

最近,視覺Transformer(ViT) 在影象識別方面表現出具有競爭力的效能,同時需要較少的視覺特定歸納偏差。

在本文中,我們研究了這種觀察是否可以擴充套件到影象生成。為此,我們將 ViT 架構整合到生成對抗網路 (GAN) 中。

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

我們觀察到現有的 GAN 正則化方法與 self-attention 的互動很差,在訓練過程中導致嚴重的不穩定。 為了解決這個問題,我們引入了新穎的正則化技術來訓練帶有 ViT 的 GAN資料集上實現了與最先進的基於 CNN 的 StyleGAN2 相當的效能。

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

生成器:

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

實驗結果

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

谷歌提出ViTGAN:使用視覺Transformer訓練GAN

CVer-Transformer交流群

建了CVer-Transformer交流群!想要進Transformer學習交流群的同學,可以直接加微訊號:

CVer6666

。加的時候備註一下:

Transformer+學校/公司+暱稱

,即可。然後就可以拉你進群了。

CVer-GAN交流群

已建立CVer-GAN微信交流群!想要進GAN學習交流群的同學,可以直接加微訊號:

CVer9999

。加的時候備註一下:

GAN+學校/公司+暱稱

,即可。然後就可以拉你進群了。

強烈推薦大家關注

CVer知乎

賬號和

CVer

微信公眾號,可以快速瞭解到最新優質的CV論文。

推薦閱讀

屠榜的新自注意力機制!PSA:邁向高質量的Pixel-wise迴歸

華中科大提出:將圓形Kernels整合到卷積神經網路中

MICCAI 2021 | UTNet:用於醫學影象分割的混合Transformer架構

NVIDIA提出Long-Short Transformer:語言和視覺的高效Transformer

改進小目標檢測!SSPNet:從無人機影象中檢測微小目標的尺度選擇金字塔網路

Transformer一腳踹進醫學影象分割!看5篇MICCAI 2021有感

新注意力!Focal Transformer:ViT中區域性-全域性互動的Focal自注意力

CSWin Transformer:具有十字形視窗的視覺Transformer主幹

深度學習的醫學影象資料集大盤點(2013-2020)

深度學習中的 Attention 機制總結與程式碼實現(2017-2021年)

寫給新手煉丹師:2021版調參上分手冊

計算機視覺頂尖期刊和會議的段子

標簽: Transformer  GAN  CVer  視覺  ViT