深度學習基礎概念——計算機視覺中的注意力機制
神經網路學習到的特徵對網路來說是等價的無差異的,透過注意力機制能夠忽略影象中的無關資訊而關注重點資訊。近年來透過集中於使用掩碼(mask)來形成注意力機制,掩碼原理是透過一層新的權重,將圖片中關鍵的特徵標識出來,透過訓練讓網路學習到圖片中需要關注的區域。
1.
軟注意力
可微注意力,可以透過梯度進行學習權重。
軟注意力的注意力域:
(1)空間域(Spatial Domain)
空間變換,對影象的空間域資訊做對應的空間變換,將關鍵的資訊提取出來。透過兩個分支網路得到變換後的圖片特徵,一條是定位網路,一條是對輸出影象的直接取樣。
(2)通道域(Channel Domain)
資訊分解,一張3通道(RGB)的影象經過64核卷積後變為64通道,將3通道分解為64通道,64個通道對關鍵資訊的貢獻不同,透過給每個通道分配權重,權重越大表示通道與關鍵資訊的相關度越高。
(3)混合域
2.
強注意力
不可微注意力,透過增強學習完成訓練。
3.
非區域性(Non-local)
在神經網路中操作如下:
其中
x
表示輸入訊號(圖片,序列,影片等,也可能是它們的features),
y
表示輸出訊號,其size和x相同。
f(xi,xj)
用來計算i和所有可能關聯的位置j之間pairwise的關係,這個關係可以是比如i和j的位置距離越遠,f值越小,表示j位置對i影響越小。
g(xj)
用於計算輸入訊號在j位置的特徵值。
C(x)
是歸一化引數。
f(xi,xj)相似度的四種形式
Gaussian:
Embedded Gaussian:
Dot product:
Concatenation:
與全連線層相比,全連線層只是單純學習到輸入到輸出的對映關係,non-local考慮到畫素與畫素間的位置關係會影響到輸出。non-loacl可以接受任意大小的輸入。
將non-local操作變形成一個non-local block如下: