AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具
DALL·E 的釋出
DALL·E 跟 Disco Diffusion 屬於同一類工具,但所生產圖片的風格差別很大。DALL·E 生成的圖片
更接近現實中的照片,也擅長建立卡通漫畫
,比如 “
穿燕尾服抽雪茄的臭鼬
“ 或 ”
會說話的挖掘機的卡通版本
”,以合理的方式組合不相關的概念,比如生成 “
牛油果形狀的躺椅
”、“
刺蝟表面的椅墊
”,還能在圖片中指定位置插入指定風格的文字,比如“
加一塊寫著 CLOSED 的霓虹燈招牌
”,或對根據現有影象,對區域性做編輯或補充 “
在沙發上新增一隻牛油果
”。
Prompt
: “an illustration of a baby daikon radish in a tutu walking a dog”
一張插畫:穿芭蕾舞裙遛狗的蘿蔔寶寶
Prompt
: “an armchair in the shape of an avocado。”
牛油果形狀躺椅
上面兩張圖片均來自 OpenAI 官網
https://
openai。com/blog/dall-e/
用 CLIP 拼大樂高
轉回來說 CLIP。 因為 OpenAI 一直沒有開放 DALL·E 的全部模型,所以“駭客”們 一直試圖用 CLIP 加上其它模型部件 來開發目的類似的工具。不專業如我,會把這些專案想象成一個有兩三塊大樂高的積木,文字->圖片用 CLIP 樂高塊,圖片生成用 VQGAN、StyleGAN 或各類 Diffusion Model。 如果想方便不擅長用英文寫 prompt 的使用者,文字輸入前面再接一個 DeepL ?
這些工具都可以稱之為 TTI ART Tool 。
而前文我用的 Disco Diffusion 就是
CLIP + Diffusion model
,除了圖片生成模型,它還花了一年多時間銜接了
動畫、影片、VR 的生成模型
。
下面列出了一些我準備探索的專案,會一一寫文向大家彙報結果。
Centipede Diffusion
CLIP-Guided StyleGAN3
CogView 2 (清華大學唐傑團隊開發的,原生支援中文)
Improved Multi-Perceptor VQGAN + CLIP
Stylegan-Humans+CLIP
Pixray
The Big Sleep: BigGAN x CLIP
這裡有兩個可以在頁面裡試用的地址。沒有命令列,沒有的。
CogView
:清華的專案,prompt 原生支援中文。40億引數,VQ-VAE tokenizer Transformer。據團隊釋出的論文裡稱“人工評估的測試中,CogView被選為最好的機率為37。02%,遠遠超過其他基於GAN的模型。”
Source:CogView: Mastering Text-to-Image Generation via Transformers
https://
arxiv。org/abs/2105。1329
0
好像上個月釋出了 CogView 2, 還沒處試用,很期待。
試用地址:
https://
wudao。aminer。cn/CogView
/index。html
下面是我跑的,8張結果裡有2張只有湖水。不過也很正常啦。
Prompt
: “一棵湖面上的櫻花書,花瓣飄在天空中,湖水倒影”
Dalle-Mini
:但注意這個專案只是名叫 mini Dalle,不要跟 OpenAI 的 DALL·E 混淆。
這個專案連線了3個預訓練模型:
VQGAN, BART encoder 和 CLIP
。DALL·E 用了120億 GPT-3 訓過的引數(parameter version),而Dalle-Mini 的訓練量只有它的
1/27
。DALL·E 用 VQVAE 進行影象編碼,而Dalle-Mini 用的是 VQGAN。
source:
https://
wandb。ai/dalle-mini/dal
le-mini/reports/DALL-E-mini——Vmlldzo4NjIxODA#the-dall-e-experiment
試用地址:
https://
huggingface。co/spaces/f
lax-community/dalle-mini
下面是我跑的櫻花樹,Prompt 見圖
DALL·E 2
好了。這篇寫得夠多了。下篇我會介紹一下 DALL·E 2,今年4月由 OpenAI 釋出後,吸引了無數開發者和藝術家在內測 waiting list 翹首等候。
目前DALL·E 2 沒有開放測試,如果你有興趣,建議先在 wainting list 占上位置。下面是申請地址:
https://
labs。openai。com/waitlis
t
下一篇文章裡我還會重點比較一下同一 Prompt 下, DD5 和 DALL·E 2 會分別出來什麼不一樣的作品。先看一張效果,同一個Prompt:
“group of angels having a board meeting in a summer garden, by Asher Brown Durand”
譯:一群天使在夏日花園裡開董事會,阿什·布朗·杜蘭德的畫風。
(圖片經作者 Tom Mason @nin_artificial 授權轉載,他也是DD團隊的開發者之一)
Disco Diffusion 生成
DALL·E 2 生成
而下圖是 十九世紀美國浪漫主義風景畫家 阿什·布朗·杜蘭德 的真實畫作
(他的作品中沒有畫過天使,也罕有群像主題)
最後我想引用我一位做 DL 研究朋友的看法來結束本文:
比如不管是 CLIP 還是各種 Diffusion,還只是起步階段的玩具,未來有更多資料和更好的模型框架,它們絕不會侷限在現在的框架裡,
你所看到的現在某個模型的侷限性,極大機率都不是 AI art 未來的侷限範圍
。
以前蒸汽機只能抽水,
但人類的想象力讓發動機上了天。
這篇介紹了 Disco Diffusion 這類 CLIP guided TTI 創作工具的來龍去脈和一點點行業背景,下篇我向國內外一些 DD高手們請求了作品轉載授權,來看看現在 AI 藝術工具 能創作出什麼樣的魔法。
西喬Catmus:AI artist 作品賞析 第一輯——Disco Diffusion 高手玩家的魔法