EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界
?PaperWeekly 原創 ·?作者|張一帆
學校|華南理工大學本科生
研究方向|CV,Causality
論文標題:
Evaluating Models' Local Decision Boundaries via Contrast Sets
論文鏈接:
https://arxiv.org/abs/2004.02709
數據集:
https://allennlp.org/contrast-sets
Main Contribution:訓練集與測試集 i.i.d 的假設使得模型很難泛化,文章提出了在原始測試集構建 contrast test set 的方法,可以真實的評估模型的語言能力。
Motivation
這里用了一個 toy example 和一個真實示例來表示作者想要提出并解決的問題。
Toy Example
考慮二維的情況,下圖中的兩分類問題需要一個非常復雜的 decision boundary。
但是在很多情況下,由于采樣的 biased,我們很可能得到如下的數據集:
網絡通過一個很簡單的 decision boundary 就可以將它們分類,而由于訓練測試數據集獨立同分布,雖然這個 decision boundary 非常差,但它在測試集表現得非常好。理想情況下,如果我們完整采樣整個數據集,所有問題都迎刃而解,但這顯然是很難做到的。為了正確的測試模型的能力,作者提出了對測試集做 perturbation 的方法:對測試集的每一個實例,我們生成一系列與之類似的測試樣本(Contrast Set:下圖中的灰色圓圈)。
Complex NLP Task
我們很難用圖把 NLP task 中存在的問題進行描述,但是有很多工作支撐了這一觀點。比較有意思的示例為在 SNLI 數據集中,表明單詞"睡覺","電視"和"貓"幾乎從來沒有同時出現數據中,但是它們經常出現在 contradiction 的例子中。所以 model 很容易的學到“同時出現'睡覺'和'貓'的句子都是 contradiction sentence,并且這一分類標準工作得很好”。?
在初始數據收集過程中完全消除這些差距將是非常理想化的,在一個非常高維的空間中,語言有太多的可變性。相反,該文使用 Contrast Set 來填補測試數據中的空白,從而給出比原始數據提供的更全面的評估。
Contrast sets
假設我們現在為測試樣本 構建 Contrast Set,有兩個要點 (i) 構建樣本距離與 ?小于某個閾值。(ii) Label 與 不一致。下圖是在 NLVR2 數據集上的一些實例,在這里,句子和圖像都通過一些很簡單的方式進行修改(例如,通過改變句子中的一個詞或找到一個相似但有區別的詞),從而使輸出標簽發生變化。
我們需要注意,contrast set 和 adversarial examples 是不一樣的,對抗樣本的目的是對句子/圖像做 perturbation,但是保持原標簽不變。?
不過文章中如何計算樣本距離,閾值的確定,label 是否發生變化,都是由 expert 給出的。
How to Create Contrast Sets
作者用了三個數據集來展示 Contrast Sets 的構造過程。
DROP
DROP 是一個閱讀理解數據集,旨在涵蓋對段落中的數字進行組合推理,包括過濾、排序和計數,以及進行數值運算。數據主要來自 (i) Wikipedia (ii) 美國足球聯賽的描述。(iii) 人口普查結果說明。(iv) 戰爭摘要。作者發現數據集中存在明顯的 bias,比如一旦問題是"How many...",結果很多情況都是 2。關于事件順序的問題通常遵循段落的線性順序,而且大部分問題不需要理解。?
作者從三個方面改進這個數據集:
關于足球聯賽的問題往往需要推理和比較(比如詢問兩場比賽得分的差值),但是其他類型的數據很少需要推理比較,因此作者為他們提供額外的需要推理比較的問題;
將問題的部分語義顛倒,類似于 shortest 變為 longest, later 變為 earlier, How many countries 變為 which countries 等等;
改變事件發生的順序,使得與事件順序相關的問題推理難度增加。
NLVR2
給模型一對圖像與一個句子,判斷這句話正確與否。這個數據集的特點在于 compositional reasoning,我們需要模型理解圖像中的物體的屬性,物體與物體的關系,物體與場景的關系。?
我們通過修改句子或用網絡搜索中獲得自由許可的圖片替換其中一張圖片來構建 NLVR2 的 Contrast Set。?
比如將句子"The leftimage contains twice the number of dogs as theright image"改為“The left image containsthree timesthe number of dogs as the right image”。或者對一個圖像對,將原本 4 條狗的圖像換成其他數目。也可以對一些量詞比如"at least one"改為"exactly one",或者實體"dogs"改為"cats",或者屬性"yellow"改為“red”。
UD ?Parsing?
這是一個 dependency parsing 的數據集。作者想要通過這個數據集證明 Contrast set 不僅在 high-level 的 NLP 任務中有效,也在語義分析的任務中有效。具體方法可以查看原文。
可以看到,再加上 Contrast Set 之后,SOTA models 的性能都有了顯著的下降。
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国怎么发行货币 通过三种途径入市
- 下一篇: 无监督训练用堆叠自编码器是否落伍?ML博