AI art-02篇：DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

作者：由西喬Catmus 發表于動漫時間：2022-05-19

DALL·E 的釋出

DALL·E 跟 Disco Diffusion 屬於同一類工具，但所生產圖片的風格差別很大。DALL·E 生成的圖片

更接近現實中的照片，也擅長建立卡通漫畫

，比如 “

穿燕尾服抽雪茄的臭鼬

“ 或 ”

會說話的挖掘機的卡通版本

”，以合理的方式組合不相關的概念，比如生成 “

牛油果形狀的躺椅

”、“

刺蝟表面的椅墊

”，還能在圖片中指定位置插入指定風格的文字，比如“

加一塊寫著 CLOSED 的霓虹燈招牌

”，或對根據現有影象，對區域性做編輯或補充 “

在沙發上新增一隻牛油果

”。

Prompt

： “an illustration of a baby daikon radish in a tutu walking a dog”

一張插畫：穿芭蕾舞裙遛狗的蘿蔔寶寶

Prompt

： “an armchair in the shape of an avocado。”

牛油果形狀躺椅

上面兩張圖片均來自 OpenAI 官網

https：//

openai。com/blog/dall-e/

用 CLIP 拼大樂高

轉回來說 CLIP。因為 OpenAI 一直沒有開放 DALL·E 的全部模型，所以“駭客”們一直試圖用 CLIP 加上其它模型部件來開發目的類似的工具。不專業如我，會把這些專案想象成一個有兩三塊大樂高的積木，文字->圖片用 CLIP 樂高塊，圖片生成用 VQGAN、StyleGAN 或各類 Diffusion Model。如果想方便不擅長用英文寫 prompt 的使用者，文字輸入前面再接一個 DeepL ？

這些工具都可以稱之為 TTI ART Tool 。

而前文我用的 Disco Diffusion 就是

CLIP + Diffusion model

，除了圖片生成模型，它還花了一年多時間銜接了

動畫、影片、VR 的生成模型

。

下面列出了一些我準備探索的專案，會一一寫文向大家彙報結果。

Centipede Diffusion

CLIP-Guided StyleGAN3

CogView 2 （清華大學唐傑團隊開發的，原生支援中文）

Improved Multi-Perceptor VQGAN + CLIP

Stylegan-Humans+CLIP

Pixray

The Big Sleep： BigGAN x CLIP

這裡有兩個可以在頁面裡試用的地址。沒有命令列，沒有的。

CogView

：清華的專案，prompt 原生支援中文。40億引數，VQ-VAE tokenizer Transformer。據團隊釋出的論文裡稱“人工評估的測試中，CogView被選為最好的機率為37。02%，遠遠超過其他基於GAN的模型。”

Source：CogView： Mastering Text-to-Image Generation via Transformers

https：//

arxiv。org/abs/2105。1329

好像上個月釋出了 CogView 2，還沒處試用，很期待。

試用地址：

https：//

wudao。aminer。cn/CogView

/index。html

下面是我跑的，8張結果裡有2張只有湖水。不過也很正常啦。

Prompt

： “一棵湖面上的櫻花書，花瓣飄在天空中，湖水倒影”

Dalle-Mini

：但注意這個專案只是名叫 mini Dalle，不要跟 OpenAI 的 DALL·E 混淆。

這個專案連線了3個預訓練模型：

VQGAN, BART encoder 和 CLIP

。DALL·E 用了120億 GPT-3 訓過的引數（parameter version），而Dalle-Mini 的訓練量只有它的

1/27

。DALL·E 用 VQVAE 進行影象編碼，而Dalle-Mini 用的是 VQGAN。

source：

https：//

wandb。ai/dalle-mini/dal

le-mini/reports/DALL-E-mini——Vmlldzo4NjIxODA#the-dall-e-experiment

試用地址：

https：//

huggingface。co/spaces/f

lax-community/dalle-mini

下面是我跑的櫻花樹，Prompt 見圖

DALL·E 2

好了。這篇寫得夠多了。下篇我會介紹一下 DALL·E 2，今年4月由 OpenAI 釋出後，吸引了無數開發者和藝術家在內測 waiting list 翹首等候。

目前DALL·E 2 沒有開放測試，如果你有興趣，建議先在 wainting list 占上位置。下面是申請地址：

https：//

labs。openai。com/waitlis

下一篇文章裡我還會重點比較一下同一 Prompt 下， DD5 和 DALL·E 2 會分別出來什麼不一樣的作品。先看一張效果，同一個Prompt：

“group of angels having a board meeting in a summer garden， by Asher Brown Durand”

譯：一群天使在夏日花園裡開董事會，阿什·布朗·杜蘭德的畫風。

（圖片經作者 Tom Mason @nin_artificial 授權轉載，他也是DD團隊的開發者之一）

Disco Diffusion 生成

DALL·E 2 生成

而下圖是十九世紀美國浪漫主義風景畫家阿什·布朗·杜蘭德的真實畫作

（他的作品中沒有畫過天使，也罕有群像主題）

最後我想引用我一位做 DL 研究朋友的看法來結束本文：

比如不管是 CLIP 還是各種 Diffusion，還只是起步階段的玩具，未來有更多資料和更好的模型框架，它們絕不會侷限在現在的框架裡，

你所看到的現在某個模型的侷限性，極大機率都不是 AI art 未來的侷限範圍

。

以前蒸汽機只能抽水，

但人類的想象力讓發動機上了天。

這篇介紹了 Disco Diffusion 這類 CLIP guided TTI 創作工具的來龍去脈和一點點行業背景，下篇我向國內外一些 DD高手們請求了作品轉載授權，來看看現在 AI 藝術工具能創作出什麼樣的魔法。

西喬Catmus：AI artist 作品賞析第一輯——Disco Diffusion 高手玩家的魔法

標簽： dall CLIP diffusion prompt disco

上一篇:工作兩年了，對電腦和平板都有需求（在沒有電腦的情況下）選擇ipad pro2021還是電腦？

下一篇：薦書：《橫道世之介》

AI art-02篇：DALL·E 介紹+兩款可以直接試用的 TTI 線上小工具

猜你喜歡

Powerlevel9k：zsh下最棒的Powerline主題

有什麼有趣的emo梗？

發現當代派對舞曲之美 1Disco

AI腦回路竟和人類如此相似，OpenAI最新研究引熱議

為什麼現在迪斯科不流行了？