您當前的位置:首頁 > 攝影

從上到下和從下到上 Image Captioning

作者:由 For Tomorrow 發表于 攝影時間:2018-08-17

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

摘要:

從上到下的視覺注意力機制已經成功的應用在caption模型中,使得模型可以更深層次地對影象進行理解。本文中,我們提出一種方法結合從上到下的以及從下到上的注意力機制,能夠關注到影象中的具體目標以及一些顯著的區域。簡單說就是透過目標檢測Faster RCNN得到一些影象區域及特徵,然後透過attention模型計算出每個區域的權重。

1。介紹

caption把影象和語言結合起來,引起了廣泛的研究。在該任務中,對影象做一些精細的操作是有必要的,因此,attention被廣泛應用於caption中,attention機制透過關注到影象的特別區域進而大大的改善了caption模型的效果。大部分傳統的attention機制是取部分caption輸出作為上下文表示,然後結合CNN之後的影象特徵。對CNN之後的特徵圖採取不同的關注。但是這種方法忽略了我們應該怎麼選取特定的影象區域。如下圖所示,

從上到下和從下到上 Image Captioning

對CNN之後的特徵做attention實際上是對每一個均勻的小方格做關注,這顯然是不合理的。為了產生和人類更為相似的attention,影象中有物件的區域以及顯著的地方應該獲得更多的關注。

本文中,我們提出一種結合bottom-up and top-down的注意力機制,bottom-up是指透過Faster RCNN方法提出一組顯著區域以及經過CNN處理之後的特徵圖。top-down是指透過上下文資訊給之前提出的顯著區域預測不同的注意力分佈,也就是計算權值。

3。1 BottomUp Attention Model

空間影象特徵V是很廣泛的,但是本文中我們基於檢測框來定義空間區域,進而實現bottom-op attention,Faster RCNN是一種目標檢測模型,用來確定目標例項是屬於某種類別然後把他用檢測框定位出來。當然我們也可以使用其他的檢測網路。

我們採用ResNet-101結構的Faster-RCNN,為每一張圖片生成一系列被選擇的區域,對每一個區域i,我們採用全域性池化生成一個2048的向量。這種模式有點類似Hard attention機制,從大量可以選擇的配置中選出少量的檢測框特徵。為了預訓練這個模型,先用ImageNet資料集訓練Faster RCNN,然後再把整個模型在Visual Genome資料集上訓練。為了增加模型的可表示性,我們在模型的末端增加了一個分支用來預測物件的屬性。這樣的話我們的模型一共有五個損失函式。

3。2 Captioning Model

得到一系列影象特徵V之後,我們的caption模型使用‘’soft‘’從上到下的attention機制來對每一個特徵圖賦予一定的權值。這個方法和以往的attention方法很相似,但是我們對設計做了些許改變,實現了更好的效果。實驗證明,儘管我們不採用bottom-up的輔助,我們也能比當前的方法效果好。

從上到下和從下到上 Image Captioning

我們的caption 模型包括兩個LSTM,是中每一個LSTM都是採用標準的LSTM實現。

從上到下和從下到上 Image Captioning

這裡,為了公式的簡潔,我們暫時忽略了記憶單元m的作用。關於兩個LSTM的解釋,如下圖。

從上到下和從下到上 Image Captioning

3。2。1 Top-Down Attention LSTM

第一個LSTM的輸入部分有三個,如下圖:

x_{t}^{1}=[h_{t-1}^{2},\bar{v},W_{e}\Pi_{t}]

,但實際上是有五個,再加上

h_{t-1}^{1}

c_{t-1}^{1}

。其中,

\bar{v}=\frac{1}{k}\sum_{i}{v_{i}}

,即對池化後的特徵圖做一個平均,得到一個2048維的向量,

W_{e}\Pi_{t}

是本時刻經過詞嵌入後的單詞向量。因此,這些輸入為LSTM提供了凸了影象的全部資訊,當前輸入單詞的資訊,上一個語言模型輸出的上下文資訊。

剩下的就和傳統的‘’soft-attention‘’機制一樣。

從上到下和從下到上 Image Captioning

3。2。2 Language LSTM

第二個LSTM是語言模型的LSTM,其輸入為

x_{t}^{2}=[\tilde{v}_{t},h_{t}^{1}]

,還有

h_{t-1}^{2}

c_{t-1}^{2}

。輸出是

h_{t }^{2}

,然後以此作為輸入,經過線性變換和softmax變換,得出機率值。

從上到下和從下到上 Image Captioning

3。2。3 Objective

關於損失函式部分,我們可以使用交叉熵損失函式最佳化模型:

從上到下和從下到上 Image Captioning

也可以採用強化學習的方法,直接最佳化DIDEr分數:

從上到下和從下到上 Image Captioning

標簽: Attention  LSTM  模型  影象  Caption