您當前的位置:首頁 > 書法

2018 注意力機制

作者:由 paxi 發表于 書法時間:2022-10-17

2.注意力機制

我們可以粗略的把神經注意機制類比成一個可以專注與出入內容的某一特徵的神經網路,這讓神經網路在執行預測任務時可以更多關注於輸入中的相關部分,更少關注與不相關的部分。

在翻譯任務中,Query可以 視為原詞語向量序列,而Key和value可以視為目標詞語向量序列,一般的注意力機制可以解釋為計算Q和K之間的相似性,並利用這種相似性確定Q和V之間的注意力關係。

以下是點積注意力的結構示意圖,我們稱這種特殊的結構為「縮放點積注意力」:

2018 注意力機制

兩個最常見的注意力函式是加性注意力(additive attention)和點乘(乘法)注意力。除了要除上縮放因子 squre_root(d_k),標準的點乘注意力與原論文中所採用的是相同的。加性注意力會使用單隱藏層的前饋網路計算適應度函式,它們在理論複雜度上是相似的。點積注意力在實踐中更快速且引數空間更高效,因為它能透過高度最佳化的矩陣乘法庫並行地計算。

發展歷史

2014年,Ilya Sutskever等學者提出了著名的Sequence to Sequence(Seq2Seq)模型,但其中存在兩個問題:

1)encoder 最後一個 hidden state,與句子末端詞彙的關聯較大,難以保留句子起始部分的資訊。因此當句子過長時,模型效能下降很快。

2)句子中每個詞都賦予相同的權重的做法是不合理的,這樣沒有足夠的區分度。

同樣的,在計算機視覺領域中,CNN模型也存在著這樣的問題,特別是當影象尺寸很大時,這個問題更加明顯。

針對以上缺陷,Dzmitry Bahdanau, Yoshua Bengio等人發表《Neural machine translation by jointly learning to align and translate》,提出了Attention Mechanism,希望實現軟區分,並給出了一些 attention 的視覺化效果圖。同年,Kelvin Xu等人發表論文《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》,將注意力機制引入了計算機視覺領域。他們同時提出了兩種注意力機制,即Soft Attention和Hard Attention。

也是在2015年,Minh-Thang Luong, Hieu Pham, Christopher D。 Manning發表論文提出了兩種 attention 的改進版本,即 global attention 和 local attention。文章指出,local attention 可以視為 hard attention 和 soft attention 的混合體(優勢上的混合),因為它的計算複雜度要低於 global attention、soft attention,而且與 hard attention 不同的是,local attention 幾乎處處可微,易於訓練。

2017年,Karim Ahmed等人提出一種新型的網路結構——Transformer——裡面所包含的注意力機制稱之為 self-attention。

同年,針對傳統基於會話過程的推薦工作僅僅使用了一次會話過程中使用者的點選行為序列。Jing Li, Jun Ma 等人在論文中引入了注意力機制來獲取使用者點選的主要目標。具體而言作者使用GRU模型的最後一個隱層狀態輸出作為全域性編碼表示,使用GRU每個時刻的隱層狀態輸出結合注意力權重的結果作為區域性編碼表示。全域性編碼表示代表了使用者在當前會話過程中點選的全域性目標,區域性編碼表示代表了使用者在當前會話過程中點選的主要目標。最後將兩個表示拼接,透過雙線性解碼輸出每個商品的排名得分,根據得分輸出預測結果。

2018年,Jian Liu,Yubo Chen,Kang Liu,Jun Zhao針對Event Detection任務中資料稀疏和單語歧義的問題,提出一種Gated MultiLingual Attention (GMLATT) 框架,利用多語言資訊,並結合注意力機制來完成Event Detection任務。該方法在ACE2005資料集上取得了SOTA結果。論文中使用了一種語言作為目標語言,但是可以將目標語言擴充套件到多種,並且可以將該方法運用在其他任務之上。

同年,由於以往注意力機制模型透過加權所有區域性特徵計算和提取關鍵特徵,忽略了各區域性特徵間的強相關性,特徵間存在較強的資訊冗餘。為解決此問題,來自美圖雲視覺技術部門和中科院自動化所的研發人員借鑑 PCA(主成分分析)思想,提出了一種引入區域性特徵互動感知的自注意機制模型,並將模型嵌入到 CNN 網路中,提出一個端到端的網路結構。該演算法在多個學術資料集和美圖公司內部工業界影片資料集上的行為分類表現都非常出色。

發展分析

瓶頸

在NLP任務中,注意力機制不能捕捉語序順序,因為它不是distance-aware的,而自然語言的語序往往也包含了一些資訊。另外,注意力機制不像人一樣可以忽略某些部位,它是透過權重來分配注意力,因此需要矩陣來儲存權重,增加了開銷。

未來發展方向

注意力機制的優點在於它能夠全域性捕捉聯絡,不像序列RNN捕捉長期依賴關係的能力那麼弱。另外,它可以並行化計算,且與CNN和RNN比較模型更簡單、引數更少,適合輕量級應用。

標簽: 注意力  Attention  機制  模型