日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架...

發(fā)布時間:2024/10/8 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


?作者?|?清華大學(xué)、DeepMind等

來源?|?機(jī)器之心

以 GPT-3 為代表的預(yù)訓(xùn)練語言模型的發(fā)展,引發(fā)對小樣本自然語言理解任務(wù)的極大關(guān)注。各種方法不斷發(fā)展并展現(xiàn)出日漸強(qiáng)大的小樣本自然語言理解性能。然而,來自清華大學(xué)、DeepMind 等團(tuán)隊的研究者近期的一項(xiàng)研究指出:相同基準(zhǔn)再評估結(jié)果表明,現(xiàn)有小樣本學(xué)習(xí)方法并不足夠穩(wěn)定有效,小樣本自然語言理解發(fā)展尚面臨巨大挑戰(zhàn)!

評價準(zhǔn)則的差異極大阻礙了已有小樣本學(xué)習(xí)方法基于統(tǒng)一的標(biāo)準(zhǔn)公平比較,也無法客觀評價該領(lǐng)域的真實(shí)進(jìn)展。近期,來自清華大學(xué)、DeepMind 等團(tuán)隊研究者在論文《FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding》中指出:現(xiàn)有小樣本學(xué)習(xí)方法并不穩(wěn)定有效,且目前已有工作不存在單一的小樣本學(xué)習(xí)方法能夠在大多數(shù) NLU 任務(wù)上取得優(yōu)勢性能。小樣本自然語言理解領(lǐng)域發(fā)展依然面臨著嚴(yán)峻的挑戰(zhàn)!該工作被 ACL 2022 主會接收。

論文標(biāo)題:

FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding

論文鏈接:

https://arxiv.org/abs/2109.12742

代碼鏈接:

https://github.com/THUDM/FewNLU

Leaderboard地址:

https://fewnlu.github.io/

本文貢獻(xiàn)如下:

1. 該研究提出了一個新的小樣本自然語言理解評價框架 FewNLU,并且從三個關(guān)鍵方面(即測試集小樣本學(xué)習(xí)性能、測試集和驗(yàn)證集相關(guān)性、以及穩(wěn)定性) 量化評估該評價準(zhǔn)則的優(yōu)勢;

2. 研究者對該領(lǐng)域相關(guān)工作進(jìn)行重新評估,結(jié)果表明:已有工作未準(zhǔn)確估計現(xiàn)有小樣本學(xué)習(xí)方法的絕對性能和相對差距;目前尚不存在單一在大多數(shù) NLU 任務(wù)取得優(yōu)勢性能的方法;不同方法的增益是優(yōu)勢互補(bǔ)的,最佳組合模型的性能接近于全監(jiān)督 NLU 系統(tǒng)等關(guān)鍵結(jié)論;

3. 此外本文提出 FewNLU,并構(gòu)建了 Leaderboard,希望幫助促進(jìn)小樣本自然語言理解領(lǐng)域未來研究工作的發(fā)展。

小樣本自然語言理解評價框架

1.1 模型選擇對小樣本學(xué)習(xí)是必要的嗎?

初步實(shí)驗(yàn)結(jié)果表明(如表格 1 所示),就如已有大多數(shù)工作那樣基于一組(根據(jù)既往實(shí)驗(yàn)經(jīng)驗(yàn))預(yù)先固定的超參數(shù)的實(shí)驗(yàn)設(shè)置,并不是最佳選擇。實(shí)驗(yàn)條件的細(xì)微變化或者擾動都會帶來性能的急劇波動。基于小的驗(yàn)證集在不同實(shí)驗(yàn)中分別進(jìn)行模型選擇是不可或缺的。

1.2 小樣本自然語言理解評價框架

基于上述結(jié)論,本文為小樣本自然語言理解提出一種更穩(wěn)健且有效的評價框架,如算法 1 所示。

該評價框架中有兩個關(guān)鍵設(shè)計選擇,分別是如何構(gòu)建數(shù)據(jù)拆分以及確定關(guān)鍵搜索超參數(shù)。

1.3 如何構(gòu)建數(shù)據(jù)拆分?

本文首先提出數(shù)據(jù)拆分構(gòu)建的三個關(guān)鍵指標(biāo):(1) 最終測試集小樣本學(xué)習(xí)性能、 (2) 測試集和驗(yàn)證集關(guān)于一個超參數(shù)空間分布的相關(guān)性、以及 (3) 關(guān)于實(shí)驗(yàn)執(zhí)行次數(shù)的穩(wěn)定性。

基于此,本文對多種不同的數(shù)據(jù)拆分策略進(jìn)行了量化實(shí)驗(yàn)和討論,包括 (1) K 折交叉驗(yàn)證 (K-Fold CV)[2], (2) 最短描述距離(MDL)[2],(3) Bagging [9], (4) 隨機(jī)采樣策略 (5) 模型指導(dǎo)的拆分策略 (6) 以及本文提出的多次數(shù)據(jù)劃分(Multi-Splits)。

實(shí)驗(yàn)結(jié)果如表格 2、3 和圖 1 所示。表格 2、3 的實(shí)驗(yàn)結(jié)果表明:從小樣本性能和相關(guān)性看,多次數(shù)據(jù)劃分 (Multi-Splits) 是比其他幾個基準(zhǔn)方案更好的數(shù)據(jù)拆分策略。?

此外,由圖 1 可知,Multi-Splits 的優(yōu)勢還源于增大執(zhí)行次數(shù) K 的取值并不會對訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)量產(chǎn)生影響,相反會進(jìn)一步增加該結(jié)果的置信度,故實(shí)驗(yàn)過程中總可以選擇盡可能增大 K 的取值。然而對于 CV 和 MDL,較大的 K 值會導(dǎo)致失敗 (Failure Mode),較小的 K 值導(dǎo)致高隨機(jī)性不穩(wěn)定的結(jié)果;同時在實(shí)踐中很難先驗(yàn)地知道應(yīng)該如何取值。故 Multi-Splits 是更具實(shí)際使用意義的數(shù)據(jù)拆分策略。

小樣本學(xué)習(xí)方法重新評價

基于統(tǒng)一的評價框架下,本文對目前已有最先進(jìn)的小樣本學(xué)習(xí)方法進(jìn)行重新評價。本文還嘗試探索了多種不同小樣本學(xué)習(xí)方法和技術(shù)組合可以實(shí)現(xiàn)的最佳性能(如表格 5 中的 "Our Best" 所示)。重新評價實(shí)驗(yàn)結(jié)果如表格所示。

重新評估結(jié)果可揭示如下關(guān)鍵結(jié)論:

結(jié)論 1:小樣本學(xué)習(xí)方法的絕對性能和相對性能差異,在先前文獻(xiàn)中未被準(zhǔn)確估計。此外小樣本方法(例如 ADAPET)在像 DeBERTa 這樣的大型模型上的優(yōu)勢會顯著降低。半監(jiān)督小樣本方法(例如 iPET 和 Noisy Student)增益在較大的模型也可以保持一致性。

結(jié)論 2:不同小樣本學(xué)習(xí)方法的增益在很大程度上是互補(bǔ)的。通過將目前各種先進(jìn)方法加以組合,它們可以在很大程度上實(shí)現(xiàn)優(yōu)于任意單一方法的小樣本學(xué)習(xí)性能。目前最佳組合方法的小樣本學(xué)習(xí)性能,接近 RoBERTa 上實(shí)現(xiàn)的全監(jiān)督性能;然而和目前 DeBERTa 上實(shí)現(xiàn)的最優(yōu)全監(jiān)督性能相比,它仍然存在較大的差異性。

結(jié)論 3:目前已有相關(guān)工作中不存在單一的小樣本學(xué)習(xí)方法能夠在大多數(shù) NLU 任務(wù)上取得主導(dǎo)性優(yōu)勢性能。這為未來進(jìn)一步開發(fā)出具有跨任務(wù)一致性和魯棒性的小樣本學(xué)習(xí)方法提出新的挑戰(zhàn)。

參考文獻(xiàn)

[1] Timo Schick and Hinrich Schütze. 2021b. It’s not just size that matters: Small language models are also few-shot learners. pages 2339–2352.?

[2] Ethan Perez, Douwe Kiela, and Kyunghyun Cho. 2021. True few-shot learning with language models. CoRR, abs/2105.11447.?

[3] Rakesh R. Menon, Mohit Bansal, Shashank Srivastava, and Colin Raffel. 2021. Improving and simplifying pattern exploiting training. CoRR, abs/2103.11955.?

[4] Timo Schick and Hinrich Schütze. 2021a. Exploiting cloze-questions for few-shot text classification and natural language inference. In EACL, pages 255–269. Association for Computational Linguistics.?

[5] Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. 2021b. GPT understands, too. CoRR, abs/2103.10385.?

[6] Qizhe Xie, Minh-Thang Luong, Eduard H. Hovy, and Quoc V. Le. 2020. Self-training with noisy student improves imagenet classification. In CVPR, pages 10684-10695. IEEE.?

[7] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making pre-trained language models better few-shot learners. CoRR, abs/2012.15723.?

[8] Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian Q. Weinberger, and Yoav Artzi. 2020. Revisiting few-sample BERT fine-tuning. CoRR, abs/2006.05987.?

[9] Leo Breiman. 1996. Bagging predictors. Mach. Learn., 24(2):123–140.

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。