您當前的位置:首頁 > 繪畫

DeepMind提出空間語言整合模型SLIM

作者:由 機器之心 發表于 繪畫時間:2018-07-24

選自arXiv,作者:Tiago Ramalho , Tomáš Kociský等,機器之心編譯,參與:陳韻竹、路。

前不久,DeepMind 提出生成查詢網路 GQN,具備從 2D 畫面到 3D 空間的轉換能力。近日,DeepMind 基於 GQN 提出一種新模型,可以捕捉空間關係的語義(如 behind、left of 等),其中包含一個基於從場景文字描述來生成場景影象的新型多模態目標函式。結果表明,內部表徵對意義不變的描述變換(釋義不變)具備穩健性,而視角不變性是該系統的新興屬性。

論文:Encoding Spatial Relations from Natural Language

DeepMind提出空間語言整合模型SLIM

論文連結:

https://

arxiv。org/pdf/1807。0167

0。pdf

摘要

:自然語言處理透過分散式方法在學習詞彙語義方面有了重要進展,但是透過這些方法學習到的表徵無法捕捉真實世界中隱藏的特定種類的資訊。具體來說,空間關係的編碼方式與人類的空間推理不一致且缺乏視角變換不變性。我們展示了這樣一個系統,它能夠捕捉空間關係的語義,如 behind、left of 等。我們的關鍵貢獻是一個基於從場景文字描述來生成場景影象的新型多模態目標,以及一個用於訓練的新型資料集。我們證明,內部表徵對意義不變的描述變換(釋義不變)具備穩健性,而視角不變性是該系統的新興屬性。

1 引言

人類能夠透過自然語言喚起彼此腦海裡的表徵。當人們描述對一個場景的看法時,對話者能夠形成該場景的心理模型,並想象所描述的物件從不同的角度看起來是怎樣的。在最簡單的層面上,如果有人站在你面前並描述一個物體位於他們左邊,你就知道它在你的右邊。嵌入自然語言意義的現有模型無法實現這樣的視點整合(viewpoint integration)。事實上,如 Gershman 和 Tenenbaum(2015)所言,從單語語料庫中提取的自然語言分散式表徵無法理解語義對等,例如「A 在 B 前面」等同於「B 在 A 後面」。

我們認為,朝人類水平的理解場景描述能力發展的重要一步是建立能夠捕捉這些不變性的表徵。在本文中,我們介紹了一個能學習此類表徵的多模態架構。為了訓練和驗證該模型,我們建立了一個 3D 場景的大型資料集,包括場景和不同角度的語言描述。我們對學到的表徵進行評估,透過從訓練資料中未看到的角度生成影象並檢查它們是否符合這種新角度下對場景的自然語言描述,來確保它們確實能夠泛化。我們還發現,我們學習的表徵很符合人類關於場景描述的相似性判斷。

眾所周知,空間自然語言模糊不清,難以計算處理(Kranjec et al。 2014; Haun et al。 2011)。即使是「behind」這樣看似簡單的介詞也無法明確描述,而需要分級處理(graded treatment)。此外,空間概念的詞彙化在不同語言和文化之間可能存在很大差異(Haun et al。 2011)。另外,人類在描述空間體驗(Landau and Jackendoff 1993)時以及方位詞層次中(Kracht 2002)表達幾何屬性的方法更加複雜。研究者雖然對人類類別空間關係的處理、感知和語言理解之間的關係進行了大量研究,但對於如何在計算上遍碼這種關係幾乎沒有明確的結論(Kosslyn 1987; Johnson 1990; Kosslyn et al。 1998; Haun et al。 2011)。

DeepMind提出空間語言整合模型SLIM

圖 1:具有對應真值影象的示例描述。如圖所示是自然語言(NL)描述和合成語言(SYN)描述。其中保留了標註語言錯誤。

在自然語言處理領域,空間關係的研究主要集中在從文字中提取空間描述並將其對映到形式符號語言(Kordjamshidi et al。 2012a,b),在這一方面研究者提出了很多標註體系和方法(Shen et al。 2009; Bateman et al。 2010; Rouhizadeh et al。 2011)。與此同時,視覺化空間描述方面的研究大量依賴手動建立的表徵,不具備分散式表徵的通用跨任務優勢(Chang et al。 2014; Hassani and Lee 2016)。

2 基於視覺的場景描述資料集

DeepMind提出空間語言整合模型SLIM

表 1:資料集統計結果

B.1 資料集示例

B。1。1 合成語言,兩個物件

DeepMind提出空間語言整合模型SLIM

B。1。2 合成語言,三個物件

DeepMind提出空間語言整合模型SLIM

B。1。3 自然語言,兩個物件

DeepMind提出空間語言整合模型SLIM

B。1。4 自然語言,三個物件

DeepMind提出空間語言整合模型SLIM

3 模型描述

我們提出了一種模型,該模型學習將單個底層輸入的多種描述整合到單個表徵中,隨後在多模態設定中利用該表徵生成新資料。

我們將該模型稱為空間語言整合模型(Spatial Language Integrating Model,SLIM)。其靈感來自於生成查詢網路(Generative Query Network,Eslami et al。 2018),該網路集成了多個視覺輸入,可用於生成相同環境的新檢視。為了讓表徵能編碼視點無關的場景描述,設定該模型使之在構建表徵之前不知道哪個視點會被解碼。在我們的例子裡,向模型輸入從 n 個不同視點所看到的場景的文字描述,以編碼成場景表徵向量。然後,利用該向量重建從新視點看到的場景影象。

如圖 2 所示,我們提出的模型由兩部分組成:一個表徵網路,它從多視點場景的文字描述中生成聚合表徵(aggregated representation);一個以場景表徵為條件的生成網路,它將場景渲染為新視點下的影象。我們對這兩個網路進行了如下描述(詳見附錄 A)。

DeepMind提出空間語言整合模型SLIM

圖 2:模型圖示。表徵網路解析多個攝像機座標拍攝的多視點場景的多個描述和文字描述。所有視點的表徵被聚合成一個場景表徵向量 r,然後生成網路使用該向量 r 來重建從新的相機座標看到的場景的影象。

DeepMind提出空間語言整合模型SLIM

圖 3:從合成語言(頂部)和自然語言(底部)模型生成的樣本。相應的描述是:「There is a pink cone to the left of a red torus。 There is a pink cone close to a purple cone。 The cone is to the left of the cone。 There is a red torus to the right of a purple cone。」;「There are two objects in the image。 In the back left corner is a light green cone, about half the height of the wall。 On the right side of the image is a bright red capsule。 It is about the same height as the cone, but it is more forward in the plane of the image。」

4 場景編碼實驗

DeepMind提出空間語言整合模型SLIM

圖 4:訓練中用於訓練/驗證/測試分割的模型變體的 ELBO 值。人類對視覺場景樣本和相應描述之間一致性的排名。對於 SLIM†(NL + SYN),僅根據自然語言輸入計算。

5 表徵分析

DeepMind提出空間語言整合模型SLIM

圖 5:上面的圖是用於測試表徵相似性的場景變換可檢視。左下角是基本表徵和將四種變換方法中的一種應用於上下文輸入而產生的表徵之間的餘弦距離。右下角採取相同的分析方法,但其物件是單個編碼器步驟生成的表徵。黑條代表 95%CI。為了對比,人類的平均排名是 M> P> A> N(Gershman and Tenenbaum 2015)。

DeepMind提出空間語言整合模型SLIM

表 2: Gershman and Tenenbaum (2015) 變換

DeepMind提出空間語言整合模型SLIM

圖 6:a) 單個描述編碼的 t-SNE,根據不同攝像機角度著色。b) 同一場景單個描述表徵之間的距離,是視點之間角度的函式。c) 從相對弧繪製的聚合表徵之間的距離,是這些弧的大小的函式。藍色對比相同場景表徵,紅色對比不同場景表徵。d) 在不同的輸入條件下,恆定場景和座標的輸出樣本。頂部:單個描述(黑色箭頭方向),底部:來自越來越大的弧的聚合描述。

DeepMind提出空間語言整合模型SLIM

標簽: 表徵  場景  描述  ET  al