您當前的位置:首頁 > 攝影

深度學習基礎概念——計算機視覺中的注意力機制

作者:由 隨便隨變了 發表于 攝影時間:2020-11-09

神經網路學習到的特徵對網路來說是等價的無差異的,透過注意力機制能夠忽略影象中的無關資訊而關注重點資訊。近年來透過集中於使用掩碼(mask)來形成注意力機制,掩碼原理是透過一層新的權重,將圖片中關鍵的特徵標識出來,透過訓練讓網路學習到圖片中需要關注的區域。

1.

軟注意力

可微注意力,可以透過梯度進行學習權重。

軟注意力的注意力域:

(1)空間域(Spatial Domain)

空間變換,對影象的空間域資訊做對應的空間變換,將關鍵的資訊提取出來。透過兩個分支網路得到變換後的圖片特徵,一條是定位網路,一條是對輸出影象的直接取樣。

(2)通道域(Channel Domain)

資訊分解,一張3通道(RGB)的影象經過64核卷積後變為64通道,將3通道分解為64通道,64個通道對關鍵資訊的貢獻不同,透過給每個通道分配權重,權重越大表示通道與關鍵資訊的相關度越高。

(3)混合域

2.

強注意力

不可微注意力,透過增強學習完成訓練。

3.

非區域性(Non-local)

在神經網路中操作如下:

深度學習基礎概念——計算機視覺中的注意力機制

其中

x

表示輸入訊號(圖片,序列,影片等,也可能是它們的features),

y

表示輸出訊號,其size和x相同。

f(xi,xj)

用來計算i和所有可能關聯的位置j之間pairwise的關係,這個關係可以是比如i和j的位置距離越遠,f值越小,表示j位置對i影響越小。

g(xj)

用於計算輸入訊號在j位置的特徵值。

C(x)

是歸一化引數。

f(xi,xj)相似度的四種形式

Gaussian:

深度學習基礎概念——計算機視覺中的注意力機制

Embedded Gaussian:

深度學習基礎概念——計算機視覺中的注意力機制

Dot product:

深度學習基礎概念——計算機視覺中的注意力機制

Concatenation:

深度學習基礎概念——計算機視覺中的注意力機制

與全連線層相比,全連線層只是單純學習到輸入到輸出的對映關係,non-local考慮到畫素與畫素間的位置關係會影響到輸出。non-loacl可以接受任意大小的輸入。

將non-local操作變形成一個non-local block如下:

深度學習基礎概念——計算機視覺中的注意力機制

深度學習基礎概念——計算機視覺中的注意力機制

標簽: 注意力  通道  64  local  Non