日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

發(fā)布時間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


作者丨張冠華

單位丨騰訊實習生 & 哈工大本科生

研究方向丨自然語言處理




導讀


句對匹配 (Natural Language Sentence Matching,NLSM) 任務是指給定兩個句子,判斷它們的關系。常見的自然語言處理任務如 Paraphrase Identification 和 Natural Language Inference 都屬于句對匹配的范疇。


在本文中,我們調研了六個 NLSM 數(shù)據集,發(fā)現(xiàn)這些數(shù)據集中廣泛地存在一種樣本選擇偏差 (Selection Bias),以致于只使用三種和語義完全無關的特征,就可以在一些數(shù)據集上達到和 LSTM 差不多的準確率,這些特征被稱為泄漏特征 (Leakage Feature)。


事實上, Leakage Feature 在 Kaggle 的各種比賽中早已受到了廣泛的關注。在 Quora 官方在 Kaggle 上舉行的比賽?Quora Question Pairs?[1]?中,排名前列的模型中全部都用到了 Leakage Feature。而在?WSDM - Fake News Classification?[2]?的數(shù)據集中,Leakage Features 也有很強的預測能力。


雖然 Leakage Feature 的預測能力很強,但是這些特征中的模式只是數(shù)據集構造過程中人工引入,在真實世界中不可推廣。所以在比賽的討論區(qū)中,Kaggle Grandmaster,boost.ai 的首席數(shù)據科學家 Abhishek 就曾質問比賽的嚴肅性。



本文探究了 Leakage Feature 的產生原因和其對深度模型的影響,并提出了一種不需要任何額外資源的去偏訓練、評估方法,實驗證明我們的方法能提升模型的真實泛化能力并提供更可靠的評估結果。


問題定義


句對匹配中的Leakage Features


在本文中我們定義的三個 Leakage Feature 分別是:


  • 句子 1 在數(shù)據集中出現(xiàn)的次數(shù) S1_freq

  • 句子 2 在數(shù)據集中出現(xiàn)的次數(shù) S2_freq

  • 在數(shù)據集中與句子 1 和句子 2 都比較過的句子數(shù)量 S1S2_inter



從表 1 可以看出,六個數(shù)據集中有四個都不同程度的受到 bias的影響。在 QuoraQP 上,只使用三個 Leakage Feature 甚至可以達到和 LSTM 差不多的結果。


這三個 Leakage Features 能有這么強的預測能力,本質上反映的是數(shù)據集中的 Selection Bias。


什么是 Selection Bias?


Selection Bias 指的是在數(shù)據采樣過程中由于遵循了某種非隨機的采樣策略而導致的偏差,這導致采樣出的數(shù)據相對于真實數(shù)據并不具有代表性。比如當我們想調查國民人均受教育程度的時候,如果只在大學里發(fā)調查問卷,那么得出的結論就是國民人均受教育程度都是本科以上。


而在句對匹配任務中,為什么會產生 Selection Bias 呢?我們結合 SNLI 和 QuoraQP 的數(shù)據集準備過程進行了合理的推斷。


在 SNLI 的準備過程中,標注工人們需要根據給定的“句子 1” (premise scene descriptions) 為三種標簽分別寫一個“句子 2”。而在這個過程中發(fā)現(xiàn),工人們會根據標簽重復使用一些句子來做"句子 2",我們推測正是這種“復用”的操作導致了 SNLI 有偏。如下圖,我們可以發(fā)現(xiàn)在 SNLI 中,隨著 S2_freq 的增大,標簽變得更傾向于是 Entailment。



在 QuoraQP 的準備過程中,數(shù)據集的準備者們提到:


我們最初的采樣方法返回了一個很不均衡的數(shù)據集,其中正例多過負例。因此我們補充了一些負樣本進去,其中負樣本的一個來源是“相關問題”。


這種“補充負樣本”的操作可能就是 QuoraQP 有偏的原因,我們推測這些后添加進去的句子可能只在數(shù)據集中出現(xiàn)了很少的次數(shù),從下圖我們可以看出,在 QuoraQP 中,當句子 1 和句子 2 出現(xiàn)次數(shù)都很多的時候,標簽傾向于為 1;而當有一個句子出現(xiàn)次數(shù)很少的時候,標簽則傾向為 0。



數(shù)據集有偏會帶來什么影響?


我們的實驗表明模型能捕捉到這種 bias,而這會導致以下兩個結果:


  • 模型的評估結果“虛高”,因為 Bias 在原始的測試集中有很強的預測能力。

  • 模型的真實泛化能力下降,因為這種 bias 是不可推廣的。


去偏方法


首先我們定義了一個 Leakage-Neutral 分布為 X×A×Y×S,其中 X 是語義特征空間,Y 是語義標簽空間,L 是采樣策略特征空間,S 是采樣意圖空間。S 表示數(shù)據集準備者在采樣時想要選擇的樣本標簽。比如 S=1,代表準備者想采一個正樣本。


我們假設,在數(shù)據集準備過程中,對于每個樣本 (x,y,s,l),如果 s=y,則該樣本被采進數(shù)據集,否則該樣本被丟掉。通過這種方式,產生了現(xiàn)有的有偏的數(shù)據集分布。


我們對 Leakage-Neutral 分布的定義有以下假設,第一個假設是 Leakage-Neutral 假設:



這個假設表明在 Leakage-Neutral 分布中,采樣決策變量 L 和標簽 Y 無關,這也使得 Leakage-Neutral 分布更貼近真實分布。第二個假設是:



這表明采樣意圖變量 S 由采樣決策變量 L 完全決定。


我們證明,通過對模型在訓練和評估的時候添加適當?shù)?sample weight,可以等價于在 Leakage-Neutral 分布中訓練和評估。算法的流程圖如下,指的是原本有偏數(shù)據集的分布,具體證明見論文




在實踐中,我們用隨機森林 100 折交叉預測來估計,同時我們?yōu)?P(Y=0) 設定了一個特定值來保持先驗不變。


實驗結果


不失一般性,在論文中,我們以?QuoraQP 為分析對象。QuoraQP 是一個二標簽文本對匹配數(shù)據集,旨在判斷給定的兩句話語義上是否重復(重復為 1,不重復為 0)。


我們把在原有偏數(shù)據集中正常訓練的模型叫?Biased Model,把加權訓練的模型叫?Debiased Model。在有偏的測試集中正常測試的結果叫?Biased Eva,加權測試的結果叫?Debiased Eva


如圖三所示,Debiased Model?在有偏評估中低于?Biased Model,這是因為 bias 在原測試集中有預測能力。而在加權評估中?Debiased Model?高于?Biased Model,這是因為加權測試中 bias pattern 沒有預測能力,當模型捕捉到 bias 并利用其進行預測,這實際上會起負作用。


如圖四所示,加權訓練的模型在合成數(shù)據集、MSRP、SICK 中均有更好的預測能力,說明我們的方法能有效降低 bias 的影響,提升模型的真實泛化能力



總結


在本文中,我們調研了六個 NLSM 數(shù)據集,發(fā)現(xiàn)這些數(shù)據集中廣泛地存在一種樣本選擇偏差,以致于只使用三種和語義完全無關的特征,就可以在一些數(shù)據集上達到和 LSTM 差不多的準確率,針對這種偏差,我們提出了一種不需要任何額外資源的去偏訓練、評估方法,實驗證明我們的方法能提升模型的真實泛化能力并提供更可靠的評估結果。


相關鏈接


[1]?https://www.kaggle.com/c/quora-question-pairs/overview

[2]?https://www.kaggle.com/c/fake-news-pair-classification-challenge/overview




點擊以下標題查看更多往期內容:?


  • 基于DGCNN和概率圖的輕量級信息抽取模型

  • ACL 2019 | 基于知識增強的語言表示模型

  • 一文詳解Google最新NLP模型XLNet

  • 自然語言處理中的語言模型預訓練方法

  • 一大批中文(BERT等)預訓練模型等你認領!

  • ACL 2019 | 基于上下文感知的向量優(yōu)化

  • NAACL 2019最佳論文:量子概率驅動的神經網絡

  • 基于小樣本學習的意圖識別冷啟動




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通




?


現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 下載論文 & 源碼

總結

以上是生活随笔為你收集整理的ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。