您當前的位置:首頁 > 攝影

一文帶你概覽Prompt工作新進展

作者:由 AI Box專欄 發表于 攝影時間:2021-12-17

基於EMNLP,ICLR,ACL,arXiv投稿論文帶你來看8月以來prompt近期工作。題圖來源於[1]。

作者簡介

:唐天一,中國人民大學高瓴人工智慧學院碩士一年級,導師為趙鑫教授,研究方向為自然語言處理。

導讀

Prompt Learning(提示學習)已經成為現在NLP研究的第四正規化[1],現在已經成為NLP領域一大熱點。劉鵬飛博士在7月的綜述[1]更是將Prompt系統性地進行了總結,讓更多人所熟知。自8月以來,據筆者粗略統計,約為109篇關於Prompt的論文發表在EMNLP 2021、arXiv或投稿ICLR 2022、ARR(ACL 2022所採用的每月滾動評審機制)。筆者從中挑選了13行解讀,歡迎大家批評和交流。

根據[1]中的分類,我們根據論文的創新點分成Prompt Engineering,Answer Engineering和Multi-Prompt Learning來進行整理討論,每個類別里根據論文出現的時間進行排序。

Prompt Engineering

PPT: Pre-trained Prompt Tuning for Few-shot Learning – 9。9 ARR Oct。

一文帶你概覽Prompt工作新進展

本文探究了針對超大模型的

預訓練的Soft Prompt

,在NLU任務中進行了小樣本實驗。首先作者透過先導實驗得出了4個結論:①Verbalizer的選擇對結果有很大影響;②將Soft Prompt初始化為具體單詞的Embedding並不能提升效能;③使用Hard和Soft的混合Prompt有幫助;④Google提出的Prompt Tuning[2]並不能在小樣本場景下取得和微調一樣的效果。因此引出了Soft Prompt預訓練的想法。

論文的Prompt框架是,基於Hard和Soft的混合完形填空式Prompt,人工設計的Answer,以T5-XXL(英文)為框架,只微調Soft Prompt。論文提出將NLU任務劃分為三種:單句分類(情感分類)、句子對分類(NLI)、多選分類(閱讀理解),同時這三種任務也可以統一為多選分類任務。然後,

在大規模無標註語料上設計針對三種任務的自監督任務

,依次達到預訓練Soft Prompt的目的。例如,對於句子對分類的任務,作者使用了

\bm{s}_1\text{[MASK]}\bm{s}_2

作為Prompt,有三個候選Answer:no,maybe,yes,如果

\bm{s}_1

\bm{s}_2

相鄰則為yes,在同一個文件則為maybe,在不同的文件則為no。最終,PPT在僅微調極少量引數的情況下,和完全微調模型相媲美。但是本文仍有一些細節未進行說明,比如預訓練語料,如何對映label,PPT在全量資料集的結果等。

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks – 10。14 arXiv

一文帶你概覽Prompt工作新進展

該論文聚焦於通用NLU任務的提示方法。Prompt架構類似於Prefix-Tuning[3],在Transformer的

每一層前加上連續型Prompt

,利用[CLS]進行預測(沒有Verbalizer),模型嘗試了BERT-Large,RoBERTa-Large等,僅微調Prompt引數。筆者認為論文的想法和寫作一般,但是進行了

大量實驗

,有一些

結論值得借鑑

。例如進行了Prompt長度、層數、重引數方法、多工、Verbalizer探究,並在一些序列標註任務上進行了實驗。

Towards Unified Prompt Tuning for Few-shot Learning (UPT) – 11。15 ARR Nov。

一文帶你概覽Prompt工作新進展

本文聚焦小樣本的NLU任務。論文的想法有點類似於PPT,

透過額外的自監督任務來使得預訓練模型適應Prompt

。具體地,論文

設計了統一的Prompt-Answer-Verbalizer框架

,即[INPUT] Is it [x1] or [x2]? It is [MASK];然後作者設計了自監督任務,在無標註[INPUT]上mask形容詞(與大部分NLU任務一致),然後將其作為[x1],再挑選意思相反的形容詞作為[x2],最後讓模型去預測結果。模型骨架是RoBERTa-Large,微調模型引數。

Answer Engineering

Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification (KPT) – 8。4 ARR Sept。

一文帶你概覽Prompt工作新進展

本文聚集於文字(主題、情感)分類。Prompt是人工設計的完形填空式;論文的重點是在Answer的對映段,首先

使用KB查詢Label的相關詞作為候選集

,然後提出了3種方法

對候選集進行去噪

(即刪去一些候選詞),最後採用平均或者加權平均候選集的方法得到標籤;最後模型使用RoBERTa-Large,微調所有引數,在零樣本和小樣本場景有了一定提升。

Prompt-Learning for Fine-Grained Entity Typing (PLET) - 8。24 arXiv

一文帶你概覽Prompt工作新進展

本文聚焦於細粒度實體分類問題。在有監督場景下,該論文方案比較常規,Prompt是完形填空式,嘗試了人工提示、連續型提示兩種方法;在Answer對映時與該Label相關的詞都加入候選集;論文使用了BERT-Base作為骨架,訓練時微調所有引數,該方案在小樣本場景相比傳統微調有大幅提升。論文有意思的地方是在零樣本場景,認為

不同句子的同一個實體在候選集上的預測分佈應該越相似越好

(雖然筆者不是非常認同這個觀點),因此採用了對比學習的辦法基於少量的標註資料和大量的無標註資料進行自監督學習。

Prototypical Verbalizer for Prompt-based Few-shot Tuning – 11。15 ARR Nov。

一文帶你概覽Prompt工作新進展

本文聚焦於小樣本場景下的文字分類任務。與WARP[4]的Soft Verbalizer思想有點類似,本文使用對比學習更加顯示地來

學習每個Soft Label

。具體地,Prompt是人工設計的完形填空式,在訓練時,可以得到每個[MASK]的表示,然後我們希望

同一個Label下的[MASK]表示儘可能接近

,並由此學習一個Label的Soft Prompt;模型基於RoBERTa-Large,微調所有引數。但是本論文的結果並不能比過精心設計的Verbalizer,只是在搜尋式、連續式中有提升。

Multi-Prompt Learning

Finetuned Language Models Are Zero-Shot Learners (FLAN) – 9。3 ICLR 2022

一文帶你概覽Prompt工作新進展

本文提出了基於超大模型的零樣本學習方法,該論文正接受ICLR 2022評審,獲得4個8分的高分。本文針對62個數據集,每個精心設計了10組人工Prompt和Answer(文中所提的Instruction),然後利用一個預訓練的137B的Decoder-only的模型(不是GPT-3,是作者自己利用無標註資料預訓練的)結合

精心設計的Instruction在60多組資料上進行全引數微調

,最後

零樣本遷移到其他的任務

中去。結果表明在大部分資料集上FLAN優於GPT-3,甚至優於GPT-3的小樣本學習(專指Demonstration Learning),特別地,FLAN在容易表示成Instruction的任務(NLI,QA)中非常有效,在補全句子(語言建模)這類任務(常識推理,共指消解)中並不是很有效。

SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer – 10。15 arXiv

一文帶你概覽Prompt工作新進展

本文聚集於小模型的Soft Prompt學習(可以看做一種預訓練)。Prompt Tuning[2]證明了在模型足夠大的時候,僅微調Prompt可以媲美微調模型,但是在小模型上還不足以。因此本文提出了

Soft Prompt的遷移學習

,先在

源任務集上學習自己的Prompt

,然後將其

作為目標任務的Prompt初始化

。本文基於Prompt Tuning的Prompt架構,僅在輸入前拼上Soft Prompt,然後基於各種尺度的T5,訓練微調時僅學習Soft Prompt。論文嘗試了幾組源任務,發現以GLUE作為源任務,遷移到GLUE和SuperGLUE上效果最佳。但是,筆者發現不同的源任務選擇對結果影響較大,有的源任務甚至會低於Prompt Tuning,作者並未提出較優的選擇源任務的方法,主要是啟發式的人工嘗試。

Multitask Prompted Training Enables Zero-Shot Task Generalization (T0) – 10。15 ICLR 2022

一文帶你概覽Prompt工作新進展

本文和FLAN思想相似,該論文正接受ICLR 2022評審,獲得了8863的得分。本文與FLAN的區別是,基於11B的T5+LM-XXL(Prompt Tuning論文中使用)在171個數據集上使用了近2000個精心設計的Prompt和Answer進行

多工學習

。該論文還開發了Prompt模版協作平臺,Prompt更加貼合任務特點。最終結果超過GPT-3,與FLAN可比,並且Prompt魯棒性更好。

Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning (IPT) – 10。15 ARR Nov。

一文帶你概覽Prompt工作新進展

本文是一篇分析性工作,主要利用Prompt Tuning[1]聚焦小樣本場景下預訓練模型中低維度內在任務子空間。IPT基於[1]的Prompt架構,在輸入前加上Soft Prompt,以BART作為骨架。論文的核心內容是,先在

多工場景下訓練一個Prompt的Auto-encoder

,即透過一個Encoder將Soft Prompt編碼成任務特定的低維子空間,再透過一個Decoder將其恢復成Soft Prompt;之後在遷移到新任務時,我們

固定Decoder

,只需要

訓練一個低維的任務特徵向量

。作者實驗發現,在多工學習階段,將Prompt到低維空間再恢復相比Prompt Tuning有所提升,說明了低維的任務子空間的確存在;同時只需要學習一個5~100維的任務特徵向量,對於一個新的資料集可以達到Prompt Tuning效果的80%,對於新的任務可以達到60%。但是,該發現還值得進一步研究,使重構子空間可以獲得更好的表現和泛化性。

On Transferability of Prompt Tuning for Natural Language Understanding (TPT) – 11。12 arXiv

一文帶你概覽Prompt工作新進展

本文聚焦於

跨任務、跨模型的Soft Prompt學習

。論文的Prompt框架、想法與SPoT一致,模型骨架是RoBERTa-Base。在跨任務遷移中,論文發現相似任務的Soft Prompt可以進行零樣本學習,並在全量資料下提升效果,並且加快收斂速度(緩解Prompt Tuning收斂慢的問題);同時,論文發現Soft Prompt對Transformer的FFN中的啟用神經元的重合度,相比於Soft Prompt本身的矩陣相似度,可以更好地度量兩個任務的相似度,以此更好地選擇源任務Prompt。但在跨模型遷移中,用一個模型的Soft Prompt對映到另一個模型的方法,並不能取得提升。

TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification – 11。6 EMNLP 2021

一文帶你概覽Prompt工作新進展

本文聚集於小樣本NLU任務。該論文的Prompt框架基於P-Tuning[5],在輸入兩端加上連續型Prompt,並用BiLSTM進行編碼,最後進行完形填空式預測,模型用RoBERTa-large作為骨架,微調所有引數。論文的核心想法是每一個任務使用一個Prompt,外加一個

Universal的Prompt學習通用知識

(考慮任務間遷移性),然後進行

多工訓練

。同時還提出了針對小樣本場景提出了Prototype-based和Entropy-based兩種去偏方法。最終模型在小樣本和全量資料場景下都超越了基線模型。

Contrastive Demonstration Tuning for Pre-trained Language Models (Demo-Tuning) – 11。15 ARR Nov。

一文帶你概覽Prompt工作新進展

本文聚集於NLU的Demonstration Learning(GPT-3中的In-context Learning)。作者借鑑了Soft Prompt的思想,

提出了Soft Demonstration

(筆者命名)想法,緩解了Hard Demonstration取樣偏差大、長度受限的問題。論文使用對比學習,訓練時交替保留正負例的Hard Demonstration,學習另一個的Soft Demonstration。模型骨架是RoBERTa-Large,微調所有的引數。

參考文獻

[1] Pre-train, Prompt, and Predict A Systematic Survey of Prompting Methods in Natural Language Processing

[2] The Power of Scale for Parameter-Efficient Prompt Tuning

[3] Prefix-Tuning Optimizing Continuous Prompts for Generation

[4] WARP: Word-level Adversarial ReProgramming

[5] GPT Understands, Too

標簽: prompt  soft  tuning  任務  論文