Transformer性能被高估?DeepMind动态评估模型的时间泛化能力
?PaperWeekly 原創 ·?作者 | 王馨月
學校 | 四川大學
研究方向 | 自然語言處理
論文標題:
Mind the Gap: Assessing Temporal Generalization in Neural Language Models
論文鏈接:
https://arxiv.org/abs/2102.01951
項目地址:
https://github.com/deepmind/deepmind-research/tree/master/pitfalls_static_language_models
這篇論文是 DeepMind 在 NeurIPS 2021上的一篇 spotlight 論文。作者提出,世界是動態的而當前的語言建模是靜態的,并證明了 Transformer-XL 語言模型在預測訓練期結束一段時間之后的現實設置中的表現和性能會越來越差。僅增加模型大小并不能解決這個問題,但讓模型不斷用新信息更新知識可以緩解性能隨時間的下降,作者認為我們應該重新思考目前訓練和評估語言模型的靜態方式,并開發能夠不斷變化的自適應語言模型。作者提出了 WMT 和 ARXIV 數據集上的動態流語言建模基準,以促進考慮時間動態的語言模型評估。
實驗
作者首先介紹了時間分層實驗設置,該設置檢驗了 Transformer LM 在對超出其訓練期的未來話語進行評估時的表現。
作者進行了兩種設置:一是時間分層設置(TIME-STRATIFIED setup),二是控制設置(CONTROL setup)。
TIME-STRATIFIED setup:作者根據過去訓練的 LM 預測在其訓練數據時間段之后發表的未來文章的能力來評估模型。使用從每個數據集的時間段開始到 2017 年 9 月的所有文檔作為訓練數據,并使用 2017 年的最后三個月作為驗證期,然后在上面的 2018-2019 測試集上評估模型。
CONTROL setup:作者通過將 TIME-STRATIFIED 與 CONTROL 設置進行比較來評估時間分層是否對當前 LM 構成挑戰。在這個設置中,訓練集包括來自與評估集相同的 2018-2019 時期的文檔。這種 CONTROL 設置類似于靜態語言建模實驗,它在重疊時間段的文本數據上訓練和評估 LM。
作者在 ARXIV 摘要數據集和 WMT News Crawl(WMT)數據集上,使用具有 18 層和 1,024 個隱藏單元的 Transformer-XL 進行實驗。下圖是 Transformer-XL 在使用兩種不同設置進行訓練時的困惑度。
與評估未來情形的更現實的 TIME-STRATIFIED 設置相比,靜態 CONTROL 設置在多大程度上高估了模型性能?如下圖所示,盡管在完全相同的數據集大小上使用相同的模型架構訓練了兩個模型,TIMESTRATIFIED 模型的性能比 CONTROL 模型差高達 16% 的困惑度差異。作者將 CUSTOMNEWS 和 ARXIV 的較高相對退化歸因于它們最近新文檔的指數增長,導致數據中來自測試期的文檔比例更高,因此出現了更困難的時間泛化問題。
在預測遠離訓練期的未來話語時,Transformer LM 的表現是否越來越差?下圖是 TIME-STRATIFIED 相對于 CONTROL 模型的相對困惑度增加。正如所有數據集的上升斜率所證明的那樣,當我們要求它預測離訓練期更遠的數據時,該模型惡化得更多,這表明模型確實隨著時間的推移變得越來越過時。作者在文章附錄中還提供了一些更詳細的差異。
分析
作者提出了這樣的問題:模型努力應對的預測類型究竟是什么?
如上一部分的圖中展示的,常用名詞(橙色)的性能隨時間推下降。而對專有名詞(藍色)和數字(紫色)進行時間概括時,TIME-STRATIFIED 模型的性能下降最快。定性分析表明,這個模型在政治領域的實體上表現不佳。而這種退化是因為專有名詞及其實體往往與最新的真實世界知識相關,同樣,這個模型在文化和社會變化相關的概念上也呈現出明顯的退化。
作者還觀察到,與圍繞生活方式的主題相比,關于政治和體育的模型表現隨時間變化更快(圖中的三條虛線)。這也是非常符合我們認知的,政治、體育主題的專有名詞往往在一段時間內發生很大的變化。
在實踐中,適應是在這個動態與非平衡的世界中最大化 LM 的潛力的關鍵條件,這要求模型能夠整合新詞、以前從未出現過的概念以及含義隨時間發生重大變化的詞。在數據集 CUSTOMNEWS 中,每個月都有大約 27% 的獨特詞。作者將這些詞稱為新詞,并認為這些概念很重要,因為它們反映了我們不斷變化的世界的本質。比如近期頻繁出現的詞語“COVID-19”,這在 2019 年末之前出現的 unigram 概率為 0,卻是如今 NLP 系統中一個重要的用例。
作者接著提出:Transformer LM 對于新信息和新詞的適應能力如何?如下圖,作者展示了 TIME-STRATIFIED 模型在測試文檔中第一次和第二次出現新詞的困惑度。模型第一次在文檔中生成新詞時候有很低的 ppl,第二次生成相同的單詞時,模型可以簡單地從上下文中復制相同的單詞,達到很高的 ppl。這也意味著 Transformer 以長程上下文為條件的能力是時間泛化的一個有用的特征。但第一次出現在 Transformer 的內存外時,沒有這種現象,這也意味著需要將 Transformer 擴展到更長的序列以改善時間泛化能力。
即使增加模型大小,過時模型的影響依然存在
近期的關于 LM 的研究表明模型大小對于困惑度、下游任務表現以及小樣本學習能力都有明顯改善作用。但增加模型大小是否也能改善時間泛化能力呢?作者訓練了一個更大的 TIME-STRATIFIED 模型,參數為 448M。實驗結果如下圖所示。
如果增加模型大小能夠延緩模型隨時間的退化,圖中較大模型產生的實線應相比于較小模型產生的虛線具有更小的斜率,但實際上更大的模型對于線的斜率并沒有影響。在兩個數據上,截止測試結束時,一個更小但更新的 模型比一個大 60% 但已經過時的 模型性能更好。因此,構建能夠用新信息更新知識的模型比簡單增大模型在時間泛化方面的能力提升上更有效。
時間分層問答
作者進一步探討了過時的 LM 如何影響不同類型的下游任務這一問題。
作者首先測試了閉卷問答(Closed-book QA)任務,作者用 WMT 數據集 預訓練 TXL 模型進行微調以回答 2011 年的問題,并對 2019 年的相關問題進行評估,結果如下圖所示,證明了微調后的 LM 缺乏更新的事實知識將影響模型在閉卷問答任務的表現。
作者還使用 NewsQA 進行了閱讀理解實驗,其中的證據文檔與問題一同呈現在模型前綴中,使用 2009 年的問題評估了 2008 年底前在 CUSTOMNEWS 上訓練的 LM 與 2009 年底前訓練的 LM 的表現——兩種模型表現相同。因此,與知識密集、閉卷式 QA 不同,閱讀理解(答案是提取性的并可以從文章中復制)的時間分層評估對過時的 LM 構成的挑戰更小。這也和上一部分中舉例的 Transformer 的長程上下文能力類似。
保持模型更新:通過動態評估在線學習
減緩 LM 隨時間退化的一種方法是,隨著新文檔到達文檔流中,不斷用新信息更新模型知識。其中一種解決方案是動態評估,作者在這里使用動態評估來適應發生在按時間排列的文檔流中的時間動態,從而適應跨文檔的時間趨勢。
測試文檔 的 loss 通過以下公式計算,其中 為文檔中的 token。
并通過梯度下降來動態更新 Transformer-XL 的參數,如以下公式所示,其中 標記動態評估學習率, 標記當前文檔的模型的參數梯度。
結果如下圖所示,在所有的數據集中,動態評估降低了模型變得過時的速度(上升斜率減小)。其中 ARXIV 的改進更明顯,對于幾周的更細粒度的分析表明,該模型只需要大概一周的數據即可超過 CONTROL 模型。此外,預測新詞也有很大的改進。
當為了保持模型保持最新(尤其是對于較大的模型)時,輕量但有效的方法更可取,因為可以使模型以最少的時間與計算成本快速消化新信息。因此,作者嘗試僅更新 embedding 層(52M 參數)捕獲詞匯語義變化,以及僅更新所有層的偏差項(198K 參數)。下圖展示了成果,僅更新偏差項的效果幾乎與更新完整模型的效果一樣。
作者還注意到,單獨的動態評估雖然有效,但依舊不能完全解決時間泛化問題。事實上,如下圖所示,雖然動態評估能夠提高對未來數據的泛化能力,但它也會災難性地遺忘過去的數據。最近的半參數模型(semi-parametric models)非常適合持續學習,新知識可以存儲在外部存儲器中,無需重新訓練整個模型即可更新。
半參數模型,此處作者指 2020年 ICLM 上 REALM: Retrieval-Augmented Language Model Pre-Training 一文中提出的 REALM 模型。
總結
作者在本文中提出,當前在重疊時間段的數據上進行訓練和評估高估了模型對于未來話語的泛化能力,并且 Transformer LM 會隨著時間的推移越來越過時,而僅增加模型大小并不難解決這個問題。
作者對未來的 LM 研究提出以下建議:
我們應該評估 LM 對未來數據的泛化能力,這可以避免測試數據污染。應該獎勵泛化超出其預訓練數據表面模式的模型,以更好地反映大型 LM 在實際系統中的使用情況。因此,我們主張在預訓練數據和下游任務中更廣泛地包含時間戳信息 。
超出訓練期的舊 LM 在需要最新事實知識的下游任務上的表現不盡人意。我們還需要更多的任務、基準和指標來評估 LM 整合新信息的能力和速度。
除了做出更大的模型以及相關的擴展工作外,我們還主張開發能夠在當前不斷變化的世界中不斷更新的自適應語言模型。
作者還表明,這篇文章的本意并非證明周圍世界隨時間推移變化而我們談論它的方式也相應變化這一顯然的狀況,作者強調的是當前的靜態評估如何高估了模型的性能,尤其在與知識相關的預測方面。我們應該重新思考如何構建時間分割來評估模型泛化到未來數據的能力。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
·
總結
以上是生活随笔為你收集整理的Transformer性能被高估?DeepMind动态评估模型的时间泛化能力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 部队文职两个人通过预选,只有一个岗位,只
- 下一篇: NeurlPS 2021论文预讲会议题全