Transformer性能被高估?DeepMind动态评估模型的时间泛化能力
?PaperWeekly 原創(chuàng) ·?作者 | 王馨月
學(xué)校 | 四川大學(xué)
研究方向 | 自然語言處理
論文標(biāo)題:
Mind the Gap: Assessing Temporal Generalization in Neural Language Models
論文鏈接:
https://arxiv.org/abs/2102.01951
項目地址:
https://github.com/deepmind/deepmind-research/tree/master/pitfalls_static_language_models
這篇論文是 DeepMind 在 NeurIPS 2021上的一篇 spotlight 論文。作者提出,世界是動態(tài)的而當(dāng)前的語言建模是靜態(tài)的,并證明了 Transformer-XL 語言模型在預(yù)測訓(xùn)練期結(jié)束一段時間之后的現(xiàn)實設(shè)置中的表現(xiàn)和性能會越來越差。僅增加模型大小并不能解決這個問題,但讓模型不斷用新信息更新知識可以緩解性能隨時間的下降,作者認(rèn)為我們應(yīng)該重新思考目前訓(xùn)練和評估語言模型的靜態(tài)方式,并開發(fā)能夠不斷變化的自適應(yīng)語言模型。作者提出了 WMT 和 ARXIV 數(shù)據(jù)集上的動態(tài)流語言建模基準(zhǔn),以促進考慮時間動態(tài)的語言模型評估。
實驗
作者首先介紹了時間分層實驗設(shè)置,該設(shè)置檢驗了 Transformer LM 在對超出其訓(xùn)練期的未來話語進行評估時的表現(xiàn)。
作者進行了兩種設(shè)置:一是時間分層設(shè)置(TIME-STRATIFIED setup),二是控制設(shè)置(CONTROL setup)。
TIME-STRATIFIED setup:作者根據(jù)過去訓(xùn)練的 LM 預(yù)測在其訓(xùn)練數(shù)據(jù)時間段之后發(fā)表的未來文章的能力來評估模型。使用從每個數(shù)據(jù)集的時間段開始到 2017 年 9 月的所有文檔作為訓(xùn)練數(shù)據(jù),并使用 2017 年的最后三個月作為驗證期,然后在上面的 2018-2019 測試集上評估模型。
CONTROL setup:作者通過將 TIME-STRATIFIED 與 CONTROL 設(shè)置進行比較來評估時間分層是否對當(dāng)前 LM 構(gòu)成挑戰(zhàn)。在這個設(shè)置中,訓(xùn)練集包括來自與評估集相同的 2018-2019 時期的文檔。這種 CONTROL 設(shè)置類似于靜態(tài)語言建模實驗,它在重疊時間段的文本數(shù)據(jù)上訓(xùn)練和評估 LM。
作者在 ARXIV 摘要數(shù)據(jù)集和 WMT News Crawl(WMT)數(shù)據(jù)集上,使用具有 18 層和 1,024 個隱藏單元的 Transformer-XL 進行實驗。下圖是 Transformer-XL 在使用兩種不同設(shè)置進行訓(xùn)練時的困惑度。
與評估未來情形的更現(xiàn)實的 TIME-STRATIFIED 設(shè)置相比,靜態(tài) CONTROL 設(shè)置在多大程度上高估了模型性能?如下圖所示,盡管在完全相同的數(shù)據(jù)集大小上使用相同的模型架構(gòu)訓(xùn)練了兩個模型,TIMESTRATIFIED 模型的性能比 CONTROL 模型差高達 16% 的困惑度差異。作者將 CUSTOMNEWS 和 ARXIV 的較高相對退化歸因于它們最近新文檔的指數(shù)增長,導(dǎo)致數(shù)據(jù)中來自測試期的文檔比例更高,因此出現(xiàn)了更困難的時間泛化問題。
在預(yù)測遠(yuǎn)離訓(xùn)練期的未來話語時,Transformer LM 的表現(xiàn)是否越來越差?下圖是 TIME-STRATIFIED 相對于 CONTROL 模型的相對困惑度增加。正如所有數(shù)據(jù)集的上升斜率所證明的那樣,當(dāng)我們要求它預(yù)測離訓(xùn)練期更遠(yuǎn)的數(shù)據(jù)時,該模型惡化得更多,這表明模型確實隨著時間的推移變得越來越過時。作者在文章附錄中還提供了一些更詳細(xì)的差異。
分析
作者提出了這樣的問題:模型努力應(yīng)對的預(yù)測類型究竟是什么?
如上一部分的圖中展示的,常用名詞(橙色)的性能隨時間推下降。而對專有名詞(藍(lán)色)和數(shù)字(紫色)進行時間概括時,TIME-STRATIFIED 模型的性能下降最快。定性分析表明,這個模型在政治領(lǐng)域的實體上表現(xiàn)不佳。而這種退化是因為專有名詞及其實體往往與最新的真實世界知識相關(guān),同樣,這個模型在文化和社會變化相關(guān)的概念上也呈現(xiàn)出明顯的退化。
作者還觀察到,與圍繞生活方式的主題相比,關(guān)于政治和體育的模型表現(xiàn)隨時間變化更快(圖中的三條虛線)。這也是非常符合我們認(rèn)知的,政治、體育主題的專有名詞往往在一段時間內(nèi)發(fā)生很大的變化。
在實踐中,適應(yīng)是在這個動態(tài)與非平衡的世界中最大化 LM 的潛力的關(guān)鍵條件,這要求模型能夠整合新詞、以前從未出現(xiàn)過的概念以及含義隨時間發(fā)生重大變化的詞。在數(shù)據(jù)集 CUSTOMNEWS 中,每個月都有大約 27% 的獨特詞。作者將這些詞稱為新詞,并認(rèn)為這些概念很重要,因為它們反映了我們不斷變化的世界的本質(zhì)。比如近期頻繁出現(xiàn)的詞語“COVID-19”,這在 2019 年末之前出現(xiàn)的 unigram 概率為 0,卻是如今 NLP 系統(tǒng)中一個重要的用例。
作者接著提出:Transformer LM 對于新信息和新詞的適應(yīng)能力如何?如下圖,作者展示了 TIME-STRATIFIED 模型在測試文檔中第一次和第二次出現(xiàn)新詞的困惑度。模型第一次在文檔中生成新詞時候有很低的 ppl,第二次生成相同的單詞時,模型可以簡單地從上下文中復(fù)制相同的單詞,達到很高的 ppl。這也意味著 Transformer 以長程上下文為條件的能力是時間泛化的一個有用的特征。但第一次出現(xiàn)在 Transformer 的內(nèi)存外時,沒有這種現(xiàn)象,這也意味著需要將 Transformer 擴展到更長的序列以改善時間泛化能力。
即使增加模型大小,過時模型的影響依然存在
近期的關(guān)于 LM 的研究表明模型大小對于困惑度、下游任務(wù)表現(xiàn)以及小樣本學(xué)習(xí)能力都有明顯改善作用。但增加模型大小是否也能改善時間泛化能力呢?作者訓(xùn)練了一個更大的 TIME-STRATIFIED 模型,參數(shù)為 448M。實驗結(jié)果如下圖所示。
如果增加模型大小能夠延緩模型隨時間的退化,圖中較大模型產(chǎn)生的實線應(yīng)相比于較小模型產(chǎn)生的虛線具有更小的斜率,但實際上更大的模型對于線的斜率并沒有影響。在兩個數(shù)據(jù)上,截止測試結(jié)束時,一個更小但更新的 模型比一個大 60% 但已經(jīng)過時的 模型性能更好。因此,構(gòu)建能夠用新信息更新知識的模型比簡單增大模型在時間泛化方面的能力提升上更有效。
時間分層問答
作者進一步探討了過時的 LM 如何影響不同類型的下游任務(wù)這一問題。
作者首先測試了閉卷問答(Closed-book QA)任務(wù),作者用 WMT 數(shù)據(jù)集 預(yù)訓(xùn)練 TXL 模型進行微調(diào)以回答 2011 年的問題,并對 2019 年的相關(guān)問題進行評估,結(jié)果如下圖所示,證明了微調(diào)后的 LM 缺乏更新的事實知識將影響模型在閉卷問答任務(wù)的表現(xiàn)。
作者還使用 NewsQA 進行了閱讀理解實驗,其中的證據(jù)文檔與問題一同呈現(xiàn)在模型前綴中,使用 2009 年的問題評估了 2008 年底前在 CUSTOMNEWS 上訓(xùn)練的 LM 與 2009 年底前訓(xùn)練的 LM 的表現(xiàn)——兩種模型表現(xiàn)相同。因此,與知識密集、閉卷式 QA 不同,閱讀理解(答案是提取性的并可以從文章中復(fù)制)的時間分層評估對過時的 LM 構(gòu)成的挑戰(zhàn)更小。這也和上一部分中舉例的 Transformer 的長程上下文能力類似。
保持模型更新:通過動態(tài)評估在線學(xué)習(xí)
減緩 LM 隨時間退化的一種方法是,隨著新文檔到達文檔流中,不斷用新信息更新模型知識。其中一種解決方案是動態(tài)評估,作者在這里使用動態(tài)評估來適應(yīng)發(fā)生在按時間排列的文檔流中的時間動態(tài),從而適應(yīng)跨文檔的時間趨勢。
測試文檔 的 loss 通過以下公式計算,其中 為文檔中的 token。
并通過梯度下降來動態(tài)更新 Transformer-XL 的參數(shù),如以下公式所示,其中 標(biāo)記動態(tài)評估學(xué)習(xí)率, 標(biāo)記當(dāng)前文檔的模型的參數(shù)梯度。
結(jié)果如下圖所示,在所有的數(shù)據(jù)集中,動態(tài)評估降低了模型變得過時的速度(上升斜率減小)。其中 ARXIV 的改進更明顯,對于幾周的更細(xì)粒度的分析表明,該模型只需要大概一周的數(shù)據(jù)即可超過 CONTROL 模型。此外,預(yù)測新詞也有很大的改進。
當(dāng)為了保持模型保持最新(尤其是對于較大的模型)時,輕量但有效的方法更可取,因為可以使模型以最少的時間與計算成本快速消化新信息。因此,作者嘗試僅更新 embedding 層(52M 參數(shù))捕獲詞匯語義變化,以及僅更新所有層的偏差項(198K 參數(shù))。下圖展示了成果,僅更新偏差項的效果幾乎與更新完整模型的效果一樣。
作者還注意到,單獨的動態(tài)評估雖然有效,但依舊不能完全解決時間泛化問題。事實上,如下圖所示,雖然動態(tài)評估能夠提高對未來數(shù)據(jù)的泛化能力,但它也會災(zāi)難性地遺忘過去的數(shù)據(jù)。最近的半?yún)?shù)模型(semi-parametric models)非常適合持續(xù)學(xué)習(xí),新知識可以存儲在外部存儲器中,無需重新訓(xùn)練整個模型即可更新。
半?yún)?shù)模型,此處作者指 2020年 ICLM 上 REALM: Retrieval-Augmented Language Model Pre-Training 一文中提出的 REALM 模型。
總結(jié)
作者在本文中提出,當(dāng)前在重疊時間段的數(shù)據(jù)上進行訓(xùn)練和評估高估了模型對于未來話語的泛化能力,并且 Transformer LM 會隨著時間的推移越來越過時,而僅增加模型大小并不難解決這個問題。
作者對未來的 LM 研究提出以下建議:
我們應(yīng)該評估 LM 對未來數(shù)據(jù)的泛化能力,這可以避免測試數(shù)據(jù)污染。應(yīng)該獎勵泛化超出其預(yù)訓(xùn)練數(shù)據(jù)表面模式的模型,以更好地反映大型 LM 在實際系統(tǒng)中的使用情況。因此,我們主張在預(yù)訓(xùn)練數(shù)據(jù)和下游任務(wù)中更廣泛地包含時間戳信息 。
超出訓(xùn)練期的舊 LM 在需要最新事實知識的下游任務(wù)上的表現(xiàn)不盡人意。我們還需要更多的任務(wù)、基準(zhǔn)和指標(biāo)來評估 LM 整合新信息的能力和速度。
除了做出更大的模型以及相關(guān)的擴展工作外,我們還主張開發(fā)能夠在當(dāng)前不斷變化的世界中不斷更新的自適應(yīng)語言模型。
作者還表明,這篇文章的本意并非證明周圍世界隨時間推移變化而我們談?wù)撍姆绞揭蚕鄳?yīng)變化這一顯然的狀況,作者強調(diào)的是當(dāng)前的靜態(tài)評估如何高估了模型的性能,尤其在與知識相關(guān)的預(yù)測方面。我們應(yīng)該重新思考如何構(gòu)建時間分割來評估模型泛化到未來數(shù)據(jù)的能力。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
·
總結(jié)
以上是生活随笔為你收集整理的Transformer性能被高估?DeepMind动态评估模型的时间泛化能力的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 部队文职两个人通过预选,只有一个岗位,只
- 下一篇: NeurlPS 2021论文预讲会议题全