日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集!

發布時間:2024/7/5 编程问答 94 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | ZenMoore
編 | 小軼

今天由一篇清華大學發表于 ACL'22 的最新論文說起,一起探討一下:大模型時代,我們該如何進行數據增強

大家可能都多少了解一些傳統的數據增強方法,比如回譯、對抗生成等等。但考慮到這些方法提出的年份較早,它們只在一些傳統的(如今看來比較弱的)基準模型上證明有效。而且,大多數據增強的工作也都只針對一些比較簡單的任務場景進行實驗,比如簡單的句子分類任務。

時過境遷,在如今大模型當道的時代背景下,我們可能得重新審視一下現有的數據增強方法。要知道,這些大規模語言模型性能遠超傳統模型;它們在簡單的分類數據集上,刷到95%以上的準確率完全不在話下。今天要分享的這篇文章中,作者也通過實驗證明了:對于大規模預訓練模型,采用的傳統數據增強方法最多只能獲得極小的邊際收益,甚至有時會使性能下降

為此,作者想要探究:針對大規模語言模型,在較為困難的任務場景下,有什么更為有效且魯棒的數據增強方法嗎?所謂有效(effectiveness) ,就是要能顯著提升性能。所謂 魯棒(robustness),就是要能在所有場景下都能夠穩定提升。

簡單來說,本文的核心觀點在于:標簽翻轉 (label-flipped)的增強樣本對大模型的性能提升最為明顯。基于此,他們提出了數據增強方法 FlipDA。

標簽翻轉:即增強后的新樣本標簽與原樣本的標簽不同。

論文標題
FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning

論文作者
Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang

論文鏈接
http://keg.cs.tsinghua.edu.cn/jietang/publications/ACL22-Zhou-et-al-FlipDA.pdf

代碼鏈接
https://github.com/zhouj8553/FlipDA

標簽翻轉的增強樣本

作者首先通過人工設計了少量標簽翻轉 (label-flipped) 的數據樣本和標簽保留 (label-preserved) 的樣本,然后比較兩者在多個任務上的效果:

結果發現,標簽翻轉在多個任務上,竟然能超出將近 10 個點!雖然這部分實驗只采用了一小部分人工設計的增強樣本,結論有一定局限性,但顯然還是值得進一步分析和研究的。

經過分析,作者認為標簽保留的數據增強主要有兩個問題:

(1) 數據增強導致語法錯誤(這一點尤其重要)

(2)數據增強導致關鍵信息丟失

作者認為,這是由于標簽翻轉的增強樣本,更能夠使模型學習到哪些才是文本中的關鍵部分。

▲標簽翻轉的增強樣本示例

總之,基于以上實驗結果和分析,作者認為可以假設:相比于標簽保留的數據增強方式,標簽翻轉的方式更加有效且魯棒。于是,他們根據這一假設提出了 FlipDA 的數據增強方法,并進行了大量實驗分析。

FlipDA

  • 首先使用 BERT 等訓練一個標簽分類器

  • 然后,使用 T5 模型生成新的增強數據:將使用類似于[1]中的 prompt 的方式拼接起來作為 input, 隨機 mask 掉一些 input tokens, 使用 T5 模型預測這些 mask 從而生成新的樣本(這種方法稱為:Pattern-based Data Cloze)。這樣,對于每個訓練樣本 ,可以生成一個新樣本集合

  • 在分類器 的幫助下篩選新樣本:對于原樣本 , 我們有了新樣本集, 這個 里面包含了一些標簽翻轉數據(即:), 我們分類器 把它們挑出來得到

    402 Payment Required

    。最后再挑出置信度最高的那部分 ,就是針對原樣本 生成的增強樣本。
  • 實際操作中,除了標簽翻轉的增強數據,再加少量標簽保留的增強數據也是有益的。

  • 使用原樣本+增強樣本重新訓練分類器。

  • 實驗

    實驗任務

    實驗主要在 FewGLUE([1], 也就是 SuperGLUE 的 few-shot 版本) 上進行。包含 question answering, textual entailment, co-reference resolution, causal reasoning and word sense disambiguation 等 7 項任務。

    Baseline

  • 同義詞替換:使用 WordNet 中的同義詞替換

  • KNN 替換:使用 GloVe 選擇最相似的單詞之一進行替換

  • EDA(Easy Data Augmentation) : 同時使用同義詞替換、隨機插入、隨機置換、隨機刪除

  • 回譯(back translation)

  • TinyBERT : 使用 BERT 預測出的 token 或者 GloVe 導出的詞匯進行替換

  • T5-MLM : 和本文方法大體相同,但是該方法是標簽保留的數據增強,而且沒有后面的篩選步驟

  • MixUP : 在特征空間進行增強(如采用特征空間中兩個樣本之間的線性插值)

  • 模型

  • ALBERT-xxlarge-v2

  • DeBERTa-xxlarge-v2

  • 評測指標

  • 有效性:accuracy,f1, em (exact-match)

  • 魯棒性:MaxDrop (MD)

  • 這里作者提出了 MaxDrop 專門用來衡量魯棒性:

    對于多個任務 、待測方法 method 以及 baseline :

    402 Payment Required

    這個值越小,代表模型越魯棒。

    對比實驗

    可以看到,FlipDA 方法無論在有效性上還是魯棒性上都有 SOTA 的性能。

    消融實驗

    FlipDA 主要核心是下面兩步:

  • Pattern-based Data Cloze:本文采用該方法生成增強樣本。

  • 使用分類器進行數據篩選。

  • 下面分別進行消融實驗:

    可以看到,

  • Pattern-based Data Cloze 在所有任務上都是有效的,因為它可以有效減少語法錯誤,更加兼容標簽翻轉方式。

  • 分類器篩選在大多數任務上有效,但是對于下面這些任務或增強樣本生成方式,需要另外的思考:

    • 使用 BT (回譯)數據進行增強,缺少數據多樣性,使用分類器篩選會進一步降低多樣性,因此不一定有效

    • 對于詞義消歧或者因果推理任務,因為需要預測多個 tokens, 所以生成標簽翻轉數據會更加困難一些,也不一定有效。

    另外,標簽翻轉+標簽保留相比于只使用標簽保留的數據增強具有更好的效果:

    標簽翻轉的方向

    標簽翻轉的方向也是需要考慮的點,比如對于是否類的問答任務,生成答案為“否”的數據相對更加容易一些。但是,只有同時具有多個方向的標簽翻轉增強數據,才更有可能超越 baseline 的性能。

    樣本選擇策略

  • Default : 即上文所述的樣本選擇方法。

  • Global TopK : 選擇概率最大的前 K 個樣本

  • Global TopP : 選擇概率大于閾值 P 的樣本

  • Diverse TopK : 先在每個原樣本對應的增強樣本中選擇 top-1, 然后依次選擇 top-2, top-3 等等,一直選到 top-k,這個策略主要出于原樣本上的數據平衡的考量。

  • 實驗表明,默認策略或者 Diverse TopK 更好一些。

    寫在后面

    不得不說,這種標簽翻轉的數據增強方法,其實和對比學習多少有些神似。只不過,前者是在數據端進行對比增強,后者更多的是在損失端進行對比增強。

    也許,這會給我們發揚光大對比學習思想帶來新的啟發~ 也會促進我們思考更加適配于大模型的一些訓練、數據增強策略。

    萌屋作者:ZenMoore

    北航本科生🧐,愛數學愛物理愛 AI🌸 想從 NLP 出發探索人工認知人工情感的奧秘🧠🤖!個人主頁🌎 zenmoore.github.io 知乎🤔 ZenMoore, 微信📩 zen1057398161 嚶其鳴矣,求其友聲?!

    作品推薦

  • 一文跟進Prompt進展!綜述+15篇最新論文逐一梳理

  • 圖靈獎大佬+谷歌團隊,為通用人工智能背書!CV 任務也能用 LM 建模!

  • 以4%參數量比肩GPT-3!Deepmind 發布檢索型 LM,或將成為 LM 發展新趨勢!?

  • 后臺回復關鍵詞【入群

    加入賣萌屋NLP、CV與搜推廣與求職討論群

    后臺回復關鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    ?

    [1] T. Schick and H. Schutze. It’s not just size that matters: Small language models are also few-shot learners. ArXiv, abs/2009.07118, 2021

    總結

    以上是生活随笔為你收集整理的ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。