您當前的位置:首頁 > 詩詞

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

作者:由 ShuYini 發表于 詩詞時間:2021-11-09

AINLPer

微信公眾號(

每日論文乾貨分享!!

編輯: PeiPei

校稿: PeiPei

時間: 2021-11-9

我們知道由於計算時間和成本的增加,大型語言模型變得越來越難以訓練。

基於這個問題,今天給大家分享EMNLP2021頂會上的一篇文章,本篇論文的主要工作是建立

在 SRU(一種高度並行化的 RNN 實現)之上, 作者結合了快速迴圈和序列建模的注意力機制, SRU++表現出強大的建模能力和訓練效率

。在 ENWIK8、WIKI-103 和 BILLION WORD 資料集等標準語言建模任務上,該模型能夠更好的獲得每個字元位和複雜度,同時與頂級 Transformer 模型相比,

訓練成本降低了 3 到 10 倍

論文及原始碼下載連結在文章後面。

背景引言

語言建模的許多最新進展主要依賴越來越大的資料集和模型架構。 因此,訓練此類模型的相關計算成本大幅增加,每次訓練都需要數百個GPU工作幾個小時或者幾天,這引發對當前研究環境可持續性的擔憂。 因此,構建在保持頂級建模能力的同時降低計算成本的計算高效模型變得勢在必行。

Transformer 架構被提出用於加速模型訓練,並已成為 NLP 中的主要架構。具體來說,它完全建立在 self-attention 上,避免使用遞迴來實現強大的並行化。雖然這種變化導致了許多經驗上的成功並提高了計算效率,但我們可否提這麼一個問題:我們是都可以透過結合注意力和快速迴圈網路來構建更有效的模型呢?答案是肯定的!

在這項工作中,作者就驗證了這個想法:提出了一個自我注意的迴圈單元,它實現了強大的計算效率。本文的工作主要是建立在 SRU(一種高度並行化的 RNN 實現)之上。作者透過簡單地用自注意力元件替換輸入的線性變換來將注意力納入SRU,改進之後稱為 SRU++,它具有增強的建模能力,並保持同樣的可並行性。

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

如上圖所示,在 ENWIK8 資料集上將其效能與 Transformer-XL 模型(Dai 等,2019)進行了比較。SRU++ 在使用基線所需的一小部分訓練資源的同時取得了更好的結果。

模型介紹

SRU++最關鍵的改變是將更具表現力的非線性操作合併到迴圈網路中。作者用 self-attention 操作代替原始SRU中的線性變換來增強建模能力,然後使用縮放的點積注意力計算加權平均輸出,元素遞迴式所需的最終輸出是透過另一個線性投影得到的,最後一個修改是為每個 SRU++ 層新增層歸一化。其中SRU、SRU變體以及本文提出的SRU++的模型架構圖如下圖所示。

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

實驗結果

作者在標準語言建模基準(包括 ENWIK8、WIKI103 和 BILLION WORD 資料集)上評估 SRU++。SRU++ 在這些資料集上始終優於各種 Transformer 模型,提供更好或相當的結果,同時使用的計算量減少 3-10 倍。且該模型不使用位置編碼、多頭注意力和其他對 Transformer 模型有用的技術。 這些變化不僅突出了迴圈的有效性,而且還可以大大減少訓練和推理的計算量。最後,作者還展示了 SRU++ 在 IWSLT’14 De→En 翻譯任務上的有效性,並在 Pytorch 中開源我們的實現以促進未來的研究。

在ENWIK8、WIKI103 和 BILLION WORD 資料集上的測試結果

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

SRU++ 在 IWSLT’14 De→En 翻譯任務上的有效性

【EMNLP2021&&含原始碼】當“Attention“遇到”Fast Recurrence“,強大的語言訓練模型!!

Paper && Code

Paper:When Attention Meets Fast Recurrence:Training Language Models with Reduced Compute。

link:

https://

arxiv。org/pdf/2102。1245

9。pdf

Code:

https://

github。com/asappresearc

h/sru

如果您不便下載:回覆:

SRU++

獲取原文。

Attention

更多自然語言處理相關知識,還請關注

AINLPer公眾號

每日論文乾貨分享!!即刻送達!!!

標簽: SRU  ++  模型  建模  Transformer