您當前的位置:首頁 > 詩詞

如何有效改善注意力機制?GA-Net 告訴你!

作者:由 人工智慧熱點 發表于 詩詞時間:2020-05-14

今天為大家介紹一篇關於動態機制的論文《Not All Attention Is Needed: Gated Attention Network for Sequence Data》。儘管深度神經網路通常具有固定的網路結構,但動態機制的概念近年來受到越來越多的關注。傳統的注意力機制透過計算動態注意力權重來聚合一系列隱藏狀態,其通常關注輸入句子的整個隱藏狀態序列,而在大多數情況下,尤其是處理長序列問題時,並不需要所有注意力。論文提出了一種稱為門控注意網路(GA-Net)的新穎方法,避免進行大量不必要的計算,允許模型只關注序列的重要部分。

一、背景

近年來,動態機制的概念引發了越來越多的關注,具有動態機制的神經網路沒有固定的計算圖,而是根據輸入自適應地確定應如何進行計算,其中最廣為人知的就是注意力機制,其在計算機視覺和自然語言處理領域都取得了巨大的成功。傳統的注意力機制網路為每個輸入單元分配了權重,即使不相關的單元也具有較小的權重,這導致相關單元的關注權重變得特別小,尤其是對於長序列而言,其引發的效能下降不可忽視。本篇論文透過動態調整注意力網路中的注意力聯絡來改善注意力機制。

二、模型結構

論文提出了一種稱為門控注意力網路(GA-Net)的新方法,該方法可動態選擇要參與計算的元素。GA-Net包含輔助網路和骨幹網路。

如何有效改善注意力機制?GA-Net 告訴你!

上圖右邊為骨幹網路,左邊是輔助網路。與傳統的注意力機制網路不同,骨幹網路是帶有門控機制的注意力網路,其中門控機制g1, …, gt取值為1或0決定來自當前狀態的資訊是否應流入,以達到選擇性地啟用部分網路的目的。輔助網路的作用是生成二進位制門,它觀察輸入的句子,併為每個位置生成二進位制門,以確定是否需要注意該位置。輔助網路輸出是機率pt計算如下:

如何有效改善注意力機制?GA-Net 告訴你!

機率pt確定門開啟的機率,並用於引數化伯努利分佈。 二進位制門是服從伯努利分佈生成的樣本:

如何有效改善注意力機制?GA-Net 告訴你!

這樣一來由於門控的離散值為0和1,不能透過梯度下降來反向傳播誤差,論文透過引入Gumbel-Softmax來解決梯度下降的問題。Gumbel-Softmax旨在透過連續鬆弛的Gumbel-Softmax分佈來近似離散分佈。為了使輔助網路在訓練過程中可區分,論文用Gumbel-Softmax分佈代替Bernoulli分佈,獨熱向量的softmax的近似值計算如下:

如何有效改善注意力機制?GA-Net 告訴你!

其中εi是來自Gumbel(0,1)的隨機樣本。當溫度τ接近0時,Gumbel-Softmax分佈趨向於獨熱。帶有軟門的注意權重可以透過以下公式計算:

如何有效改善注意力機制?GA-Net 告訴你!

三、實驗結果

論文在IMDB 、AG’s News 、SST-1 、SST-2 和TREC 5個分類任務資料集上與三個基準模型對比,均得到了最佳效能。

如何有效改善注意力機制?GA-Net 告訴你!

同時,如上圖所示最後一行,透過對比得到的注意力連線的密度,論文證實了可以透過更稀疏的注意力結構實現與完全注意力連線相一致的效能。尤其是對於IMDB資料集,每個輸入僅開啟19。99%的門。最後,論文透過分析如下圖所示的兩個案例進一步驗證了所提出的GA-Net具有選擇序列中相關單元的能力。(在下圖中,GA-Net 能夠很好的關注到句子”This is a film well worth seeing, talking and singing heads and all。“ 中的關鍵詞彙”film well worth seeing“、”talking “,”singing “同時忽略掉一些無用的指代詞、連線詞。對句子”Occasionally melodramatic, it ’s also extremely effective。“ 進行分析可以得到類似的結論。)

如何有效改善注意力機制?GA-Net 告訴你!

四、結論

論文提出了一種用於序列資料的稱為門控注意網路(GA-Net)的新方法。GA-Net使用輔助網路動態選擇要參加的元素子集,並計算注意力權重以聚合所選元素。它結合了兩種依賴於輸入的動態機制,即注意力機制和動態網路配置,並具有動態稀疏的注意力結構。實驗表明,所提出的方法始終能達到最佳效果,同時所需的計算量更少,可解釋性更好。或許在通往人工智慧未來的大道上,這種以”動“制”靜“的方法會有一席之地。

參考文獻:

Xue, L。, Li, X。, & Zhang, N。L。 (2019)。 Not All Attention Is Needed: Gated Attention Network for Sequence Data。 ArXiv, abs/1912。00349。Vaswani, A。, Shazeer, N。, Parmar, N。, Uszkoreit, J。, Jones, L。, Gomez, A。N。, Kaiser, L。, & Polosukhin, I。 (2017)。 Attention is All you Need。 NIPS。

如何有效改善注意力機制?GA-Net 告訴你!

標簽: 注意力  網路  ga  NET  機制