谷歌提出ViTGAN:使用視覺Transformer訓練GAN
ViTGAN:在GAN中使用視覺Transformer (ViTs),並提出了確保其訓練穩定性和提高其收斂性的新技術,表現SOTA!效能優於TransGAN、StyleGAN2等網路。
注1:文末附【Transformer】和【GAN】交流群
注2:整理不易,歡迎點贊,支援分享!
ViTGAN
ViTGAN: Training GANs with Vision Transformers
作者單位:UC San Diego, 谷歌
論文:
https://
arxiv。org/abs/2107。0458
9
最近,視覺Transformer(ViT) 在影象識別方面表現出具有競爭力的效能,同時需要較少的視覺特定歸納偏差。
在本文中,我們研究了這種觀察是否可以擴充套件到影象生成。為此,我們將 ViT 架構整合到生成對抗網路 (GAN) 中。
我們觀察到現有的 GAN 正則化方法與 self-attention 的互動很差,在訓練過程中導致嚴重的不穩定。 為了解決這個問題,我們引入了新穎的正則化技術來訓練帶有 ViT 的 GAN資料集上實現了與最先進的基於 CNN 的 StyleGAN2 相當的效能。
生成器:
實驗結果
CVer-Transformer交流群
建了CVer-Transformer交流群!想要進Transformer學習交流群的同學,可以直接加微訊號:
CVer6666
。加的時候備註一下:
Transformer+學校/公司+暱稱
,即可。然後就可以拉你進群了。
CVer-GAN交流群
已建立CVer-GAN微信交流群!想要進GAN學習交流群的同學,可以直接加微訊號:
CVer9999
。加的時候備註一下:
GAN+學校/公司+暱稱
,即可。然後就可以拉你進群了。
強烈推薦大家關注
CVer知乎
賬號和
CVer
微信公眾號,可以快速瞭解到最新優質的CV論文。
推薦閱讀
屠榜的新自注意力機制!PSA:邁向高質量的Pixel-wise迴歸
華中科大提出:將圓形Kernels整合到卷積神經網路中
MICCAI 2021 | UTNet:用於醫學影象分割的混合Transformer架構
NVIDIA提出Long-Short Transformer:語言和視覺的高效Transformer
改進小目標檢測!SSPNet:從無人機影象中檢測微小目標的尺度選擇金字塔網路
Transformer一腳踹進醫學影象分割!看5篇MICCAI 2021有感
新注意力!Focal Transformer:ViT中區域性-全域性互動的Focal自注意力
CSWin Transformer:具有十字形視窗的視覺Transformer主幹
深度學習的醫學影象資料集大盤點(2013-2020)
深度學習中的 Attention 機制總結與程式碼實現(2017-2021年)
寫給新手煉丹師:2021版調參上分手冊
計算機視覺頂尖期刊和會議的段子
上一篇:悲觀主義者要怎麼改變?
下一篇:狗狗幣真的會成為下一個比特幣嗎?