您當前的位置:首頁 > 動漫

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

作者:由 西喬Catmus 發表于 動漫時間:2022-05-19

DALL·E 的釋出

DALL·E 跟 Disco Diffusion 屬於同一類工具,但所生產圖片的風格差別很大。DALL·E 生成的圖片

更接近現實中的照片,也擅長建立卡通漫畫

,比如 “

穿燕尾服抽雪茄的臭鼬

“ 或 ”

會說話的挖掘機的卡通版本

”,以合理的方式組合不相關的概念,比如生成 “

牛油果形狀的躺椅

”、“

刺蝟表面的椅墊

”,還能在圖片中指定位置插入指定風格的文字,比如“

加一塊寫著 CLOSED 的霓虹燈招牌

”,或對根據現有影象,對區域性做編輯或補充 “

在沙發上新增一隻牛油果

”。

Prompt

: “an illustration of a baby daikon radish in a tutu walking a dog”

一張插畫:穿芭蕾舞裙遛狗的蘿蔔寶寶

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

Prompt

: “an armchair in the shape of an avocado。”

牛油果形狀躺椅

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

上面兩張圖片均來自 OpenAI 官網

https://

openai。com/blog/dall-e/

用 CLIP 拼大樂高

轉回來說 CLIP。 因為 OpenAI 一直沒有開放 DALL·E 的全部模型,所以“駭客”們 一直試圖用 CLIP 加上其它模型部件 來開發目的類似的工具。不專業如我,會把這些專案想象成一個有兩三塊大樂高的積木,文字->圖片用 CLIP 樂高塊,圖片生成用 VQGAN、StyleGAN 或各類 Diffusion Model。 如果想方便不擅長用英文寫 prompt 的使用者,文字輸入前面再接一個 DeepL ?

這些工具都可以稱之為 TTI ART Tool 。

而前文我用的 Disco Diffusion 就是

CLIP + Diffusion model

,除了圖片生成模型,它還花了一年多時間銜接了

動畫、影片、VR 的生成模型

下面列出了一些我準備探索的專案,會一一寫文向大家彙報結果。

Centipede Diffusion

CLIP-Guided StyleGAN3

CogView 2 (清華大學唐傑團隊開發的,原生支援中文)

Improved Multi-Perceptor VQGAN + CLIP

Stylegan-Humans+CLIP

Pixray

The Big Sleep: BigGAN x CLIP

這裡有兩個可以在頁面裡試用的地址。沒有命令列,沒有的。

CogView

:清華的專案,prompt 原生支援中文。40億引數,VQ-VAE tokenizer Transformer。據團隊釋出的論文裡稱“人工評估的測試中,CogView被選為最好的機率為37。02%,遠遠超過其他基於GAN的模型。”

Source:CogView: Mastering Text-to-Image Generation via Transformers

https://

arxiv。org/abs/2105。1329

0

好像上個月釋出了 CogView 2, 還沒處試用,很期待。

試用地址:

https://

wudao。aminer。cn/CogView

/index。html

下面是我跑的,8張結果裡有2張只有湖水。不過也很正常啦。

Prompt

: “​​一棵湖面上的櫻花書,花瓣飄在天空中,湖水倒影”

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

Dalle-Mini

:但注意這個專案只是名叫 mini Dalle,不要跟 OpenAI 的 DALL·E 混淆。

這個專案連線了3個預訓練模型:

VQGAN, BART encoder 和 CLIP

。DALL·E 用了120億 GPT-3 訓過的引數(parameter version),而Dalle-Mini 的訓練量只有它的

1/27

。DALL·E 用 VQVAE 進行影象編碼,而Dalle-Mini 用的是 VQGAN。

source:

https://

wandb。ai/dalle-mini/dal

le-mini/reports/DALL-E-mini——Vmlldzo4NjIxODA#the-dall-e-experiment

試用地址:

https://

huggingface。co/spaces/f

lax-community/dalle-mini

下面是我跑的櫻花樹,Prompt 見圖

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

DALL·E 2

好了。這篇寫得夠多了。下篇我會介紹一下 DALL·E 2,今年4月由 OpenAI 釋出後,吸引了無數開發者和藝術家在內測 waiting list 翹首等候。

目前DALL·E 2 沒有開放測試,如果你有興趣,建議先在 wainting list 占上位置。下面是申請地址:

https://

labs。openai。com/waitlis

t

下一篇文章裡我還會重點比較一下同一 Prompt 下, DD5 和 DALL·E 2 會分別出來什麼不一樣的作品。先看一張效果,同一個Prompt:

“group of angels having a board meeting in a summer garden, by Asher Brown Durand”

譯:一群天使在夏日花園裡開董事會,阿什·布朗·杜蘭德的畫風。

(圖片經作者 Tom Mason @nin_artificial 授權轉載,他也是DD團隊的開發者之一)

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

Disco Diffusion 生成

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

DALL·E 2 生成

而下圖是 十九世紀美國浪漫主義風景畫家 阿什·布朗·杜蘭德 的真實畫作

(他的作品中沒有畫過天使,也罕有群像主題)

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

AI art-02篇:DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

最後我想引用我一位做 DL 研究朋友的看法來結束本文:

比如不管是 CLIP 還是各種 Diffusion,還只是起步階段的玩具,未來有更多資料和更好的模型框架,它們絕不會侷限在現在的框架裡,

你所看到的現在某個模型的侷限性,極大機率都不是 AI art 未來的侷限範圍

以前蒸汽機只能抽水,

但人類的想象力讓發動機上了天。

這篇介紹了 Disco Diffusion 這類 CLIP guided TTI 創作工具的來龍去脈和一點點行業背景,下篇我向國內外一些 DD高手們請求了作品轉載授權,來看看現在 AI 藝術工具 能創作出什麼樣的魔法。

西喬Catmus:AI artist 作品賞析 第一輯——Disco Diffusion 高手玩家的魔法

標簽: dall  CLIP  diffusion  prompt  disco