清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索
?作者 | 曾偉豪
學校 | 北京郵電大學
研究方向 | 對話摘要生成
論文標題:
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning
論文鏈接:
https://arxiv.org/abs/2110.07867
作者提出了大家都非常關心的問題:預訓練模型是如何通過任務無關的預訓練目標(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)來學到知識,并且能使用少量的數(shù)據(jù)就能將預訓練模型運用到下游差異巨大的任務中(fine-tuning; prompt-tuning)。
在論文中,作者提出了假設:將預訓練模型遷移到各種下游任務的優(yōu)化問題可以重參數(shù)化為在同一低維參數(shù)子空間中只優(yōu)化少數(shù)幾個自由參數(shù)的問題,作者稱之為 intrinsic task subspace. (本征子空間)如下圖所示:
注:Intrinsic dimension(ID)指的是用來表示數(shù)據(jù)或者近似函數(shù)所需要的最小的變量的數(shù)目。之前有工作直接將 PLM 的參數(shù)投影到線性子空間上,然后發(fā)現(xiàn)許多的 NLP 任務的 Intrinsic dimension 可以低于萬維,這也啟發(fā)了作者的工作)
如果上述假設成立,那么 task-specific optimization subspaces 的存在可以解釋 PLMs 的通用性,同時本征子空間的低維度的特性可以解釋 adaptations(fine-tuing; prompt-tuning)可以在相對小規(guī)模數(shù)據(jù)集上訓練。從這個觀點來看,PLMs 可以看成通用的 compressive frameworks,可以將不同任務的學習復雜度從高維降到低維。
為了證明上述假設,就需要找出 PLMs 的本征子空間(intrinsic task subspaces)。在論文中,作者通過 Prompt Tuning 來尋找公共 intrinsic subspace。因為直接讓所有的 PLMs 的參數(shù)直接降維在計算上是困難的,并且 Prompt Tuning 在結構上不復雜,方便降維。
作者將論文中采用的方法稱之為 intrinsic prompt tuning(IPT),IPT 主要包括兩個階段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的階段,我們獲得多任務下的經過優(yōu)化的 soft prompts,然后訓練一個自動編碼器將這些 soft prompt 投影到低維的子空間上,最后將這些低維子空間上反向投影,重建成新的 prompt。這樣經過優(yōu)化的自動編碼器就可以定義目標的本征子空間。在 IST 階段,對于之前陌生的任務和數(shù)據(jù),只需要調節(jié)在 MSF 階段找到的低維子空間上的參數(shù)然后通過逆投影就可解決問題。
作者在實驗上發(fā)現(xiàn)這個本征子空間不僅存在,而且維度非常低。在由 100 個隨機任務上利用 MSF 得到的 5 維的本征子空間上,利用 IST 的方法可以對那些 100 個已經見過的任務(但是不同的數(shù)據(jù))達到 prompt tuning 87% 的效果。對于 20 個沒見過的任務,能達到 prompt tuning 65% 的效果。同時作者也表示通過? MSF 找到的本征子空間和 IPT 具有使用價值,比如可以用來分析 nlp 任務上的區(qū)別以及提升模型的穩(wěn)定性。
Methodology
1.1 Preliminaries
對于給定的一系列 NLP 任務, , 其中既包括了 NLU 任務,又包括了 NLG 任務。但不失一般性,可以將任務定義為 , 其中 , ,目標就是習得映射函數(shù): 。
1.2 Intrinsic Prompt Tuning
1.2.1 Multi-task Subspace Finding
在 MSF 的階段,對于每一個下游任務 ,都會得到得到一個訓練好的 soft prompts ? 。會使用 auto-encoder 將 投影到 維上,再逆投影回原來的維度得到重建后的 prompt 。
其中 ,是用來投影到低維度的網(wǎng)絡,是一層 FNN, 則是兩層的感知機用來做逆投影:
同時還引入重建的 Prompt 在對應任務上的損失 。得到 MSF 階段的訓練目標:
其中 是控制兩種 loss 比率的超參, 表示 和 的參數(shù)。
1.2.2 Intrinsic Subspace Tuning
在這個階段,作者希望驗證在 MSF 階段找到的子空間的有效性。具體而言,保持在 MSF 階段參數(shù) 以及預訓練模型參數(shù)固定,對每一個任務,僅僅是調節(jié)本征子空間上 個自由參數(shù),然后通過 逆投影成 soft prompts,目標函數(shù)如下:
Experiment and Analysis
2.1 Experimental Settings
2.1.1 任務和數(shù)據(jù)集
從 Cross Fit Gym 隨機抽取的 120 個 few-shot NLP 任務,既包含 NLU 又包括 NLG。每個任務 可以表示為 () 。
2.1.2 Evaluation Metrics
定義了兩個指標 :
其中 表示在任務 上 IPT 的結果對應的測試分數(shù)。 則表示在 prompt tuning()的表現(xiàn)或者在 fine tuning 上的表現(xiàn)( )。
在論文中,作者使用 作為主要評價指標, 作為輔助評價指標。
3.1.3 任務設置
將 120 個 NLP 任務劃分成訓練任務集 ,測試任務集 ,滿足 。
在 MSF 的階段,模型在 上訓練,然后在 上測試 和 的結果。用來測試重建的 prompts 效果,這也為模型在 unseen data 和 tasks 上的表現(xiàn)提供一個經驗性的上界。在 上測試了 soft prompts 重建的結果,用來探究 auto-encoder 對于未見過的 prompts 的重建能力。
在 IST 階段,在 上使用 IST 來探究在子空間上的優(yōu)化的表現(xiàn)。為了檢驗 IPT 的泛化能力,設計了兩種任務:
1. unseen-data challenge. 在 上使用重新采樣的 K-shot 來進行 IST 的過程。
2. unseen-task challenge. 在 上檢驗由 IPT 獲得的 soft prompts 的效果。檢驗 IPT 在 unseen-task 上的效果,以此來證明不同 NLP 任務對應的子空間是不相互獨立的。
2.2 Main Result
2.2.1 Q1 PLMs是否真的將few-shot設置下多樣的NLP任務重參數(shù)化為低維子空間任務?
Figure 3(a)顯示,在 unseen-data challenge 上,使用 的 IST 能夠恢復完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需調節(jié)本征子空間上的 5-100個 參數(shù)就可以達到 prompt tuning 的 60% 的效果。作者認為這為他們的猜想也就是 PLMs 將多樣的 NLP 任務重參數(shù)化為低維子空間任務提供了證據(jù)?;蛘咧辽僮C明了這些任務被重參數(shù)化為低維子空間后存在交集,否則由 得到的子空間幾乎不可能對 有效。
2.2.2 Q2 什么限制了IPT?
1. 在 MSF 階段,重建 soft prompts 的效果甚至要優(yōu)于原始的 prompt tunning。說明(1)MSF 可以通過促進在低維度上的多任務技能的分享來提升? prompt tuning 的表現(xiàn)。(2)在本征子空間上至少存在較優(yōu)的解,能被 MSF 找到。但是即使是同樣的訓練數(shù)據(jù) IST 也不能找到這些 good solutions, 因此 與 之間存在差距,說明采取的優(yōu)化算法限制了 IST 的表現(xiàn)。
2.? 與 存在差距,說明直接在未知任務上進行 soft prompts 的重構表現(xiàn)不佳。說明 MSF 的重構能力限制了它的泛化性。
3. IPT相對 fine-tuning 的表現(xiàn)要遜于相對于在 prompt-tunning 下的表現(xiàn)。是因為 prompt-tuning 在 few-shot 場景下要比 fine-tuning 弱,啟發(fā)設計更有效的 prompt-tuning 算法。
2.2.3 Q3 任務類型的影響
Figure3 (c)-(f)表示
1. 分類任務和非分類任務存在較大的差異。
2.?當提升 時,non-cls 任務的表現(xiàn)會下降,cls 任務的表現(xiàn)會上升。這表明 non-cls 任務的本征子空間的維度可能遠小于 cls 任務。
2.3 Analyses and Properties
2.3.1 Visualization of the Found Intrinsic Subspace
將本征子空間的向量利用 PCA 進行降維
1. 分類任務和非分類任務之間較大的差異,這也解釋了之前的問題。
2.? 和 對應的向量在空間上是混合的,說明被找到的子空間對于未知的任務具有一定的泛化能力。
3. 從(C)和(D)中還可以觀察到,屬于同一類別的點表現(xiàn)為緊密的簇。說明學習到的 intrinsic 向量可以作為任務的低維表示,可以用來分析多種 NLP 任務之間的異同。
2.3.2 Impacts of the Number of Training Tasks
隨著訓練數(shù)據(jù)的增加,MSF 和 IST 的差距逐漸縮小,說明數(shù)據(jù)的增加能夠有利于 IST 的優(yōu)化。
2.3.3 Impacts of the Number of Shots
隨著訓練數(shù)據(jù)的增加,MSF 和 IST 的差距逐漸縮小,說明數(shù)據(jù)的增加能夠有利于 IST 的優(yōu)化。
2.3.4 Improving Prompt Tuning Stability
Prompt 是最不穩(wěn)定的策略,會影響到 Prompt tuning 的使用,IPT 可以幫助 Prompt tuning 更穩(wěn)定??梢杂?IPT 的結果去初始化 Prompt Tuning。
Conclusion
作者并沒有直接得出在 PLMs 上的不同 NLP 任務可以重參數(shù)化為在相同子空間上的優(yōu)化。但找到了一個可信的結果:不同任務被重參數(shù)化在低維子空間上后存在交集,并且能被 MSF 找到。作者希望未來的工作能不能設計更好的框架去證明這個本征子空間的存在,使 IPT 具有更好的泛化性能。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 防臭地漏为什么不下水?
- 下一篇: 寺,庙,祠,庵,观的区别?