深度學習基礎概念——計算機視覺中的注意力機制

作者：由隨便隨變了發表于攝影時間：2020-11-09

神經網路學習到的特徵對網路來說是等價的無差異的，透過注意力機制能夠忽略影象中的無關資訊而關注重點資訊。近年來透過集中於使用掩碼（mask）來形成注意力機制，掩碼原理是透過一層新的權重，將圖片中關鍵的特徵標識出來，透過訓練讓網路學習到圖片中需要關注的區域。

軟注意力

可微注意力，可以透過梯度進行學習權重。

軟注意力的注意力域：

（1）空間域（Spatial Domain）

空間變換，對影象的空間域資訊做對應的空間變換，將關鍵的資訊提取出來。透過兩個分支網路得到變換後的圖片特徵，一條是定位網路，一條是對輸出影象的直接取樣。

（2）通道域（Channel Domain）

資訊分解，一張3通道（RGB）的影象經過64核卷積後變為64通道，將3通道分解為64通道，64個通道對關鍵資訊的貢獻不同，透過給每個通道分配權重，權重越大表示通道與關鍵資訊的相關度越高。

（3）混合域

強注意力

不可微注意力，透過增強學習完成訓練。

非區域性（Non-local）

在神經網路中操作如下：

其中

表示輸入訊號（圖片，序列，影片等，也可能是它們的features），

表示輸出訊號，其size和x相同。

f(xi,xj)

用來計算i和所有可能關聯的位置j之間pairwise的關係，這個關係可以是比如i和j的位置距離越遠，f值越小，表示j位置對i影響越小。

g(xj)

用於計算輸入訊號在j位置的特徵值。

C(x)

是歸一化引數。

f（xi，xj）相似度的四種形式

Gaussian：

Embedded Gaussian：

Dot product：

Concatenation：

與全連線層相比，全連線層只是單純學習到輸入到輸出的對映關係，non-local考慮到畫素與畫素間的位置關係會影響到輸出。non-loacl可以接受任意大小的輸入。

將non-local操作變形成一個non-local block如下：

標簽：注意力通道 64 local Non

猜你喜歡