當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

發布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨張冠華

單位丨騰訊實習生 & 哈工大本科生

研究方向丨自然語言處理

導讀

句對匹配（Natural Language Sentence Matching，NLSM）任務是指給定兩個句子，判斷它們的關系。常見的自然語言處理任務如 Paraphrase Identification 和 Natural Language Inference 都屬于句對匹配的范疇。

在本文中，我們調研了六個 NLSM 數據集，發現這些數據集中廣泛地存在一種樣本選擇偏差（Selection Bias），以致于只使用三種和語義完全無關的特征，就可以在一些數據集上達到和 LSTM 差不多的準確率，這些特征被稱為泄漏特征（Leakage Feature）。

事實上， Leakage Feature 在 Kaggle 的各種比賽中早已受到了廣泛的關注。在 Quora 官方在 Kaggle 上舉行的比賽?Quora Question Pairs?[1]?中，排名前列的模型中全部都用到了 Leakage Feature。而在?WSDM - Fake News Classification?[2]?的數據集中，Leakage Features 也有很強的預測能力。

雖然 Leakage Feature 的預測能力很強，但是這些特征中的模式只是數據集構造過程中人工引入，在真實世界中不可推廣。所以在比賽的討論區中，Kaggle Grandmaster，boost.ai 的首席數據科學家 Abhishek 就曾質問比賽的嚴肅性。

本文探究了 Leakage Feature 的產生原因和其對深度模型的影響，并提出了一種不需要任何額外資源的去偏訓練、評估方法，實驗證明我們的方法能提升模型的真實泛化能力并提供更可靠的評估結果。

問題定義

句對匹配中的Leakage Features

在本文中我們定義的三個 Leakage Feature 分別是：

句子 1 在數據集中出現的次數 S1_freq
句子 2 在數據集中出現的次數 S2_freq
在數據集中與句子 1 和句子 2 都比較過的句子數量 S1S2_inter

從表 1 可以看出，六個數據集中有四個都不同程度的受到 bias的影響。在 QuoraQP 上，只使用三個 Leakage Feature 甚至可以達到和 LSTM 差不多的結果。

這三個 Leakage Features 能有這么強的預測能力，本質上反映的是數據集中的 Selection Bias。

什么是 Selection Bias？

Selection Bias 指的是在數據采樣過程中由于遵循了某種非隨機的采樣策略而導致的偏差，這導致采樣出的數據相對于真實數據并不具有代表性。比如當我們想調查國民人均受教育程度的時候，如果只在大學里發調查問卷，那么得出的結論就是國民人均受教育程度都是本科以上。

而在句對匹配任務中，為什么會產生 Selection Bias 呢？我們結合 SNLI 和 QuoraQP 的數據集準備過程進行了合理的推斷。

在 SNLI 的準備過程中，標注工人們需要根據給定的“句子 1” （premise scene descriptions）為三種標簽分別寫一個“句子 2”。而在這個過程中發現，工人們會根據標簽重復使用一些句子來做"句子 2"，我們推測正是這種“復用”的操作導致了 SNLI 有偏。如下圖，我們可以發現在 SNLI 中，隨著 S2_freq 的增大，標簽變得更傾向于是 Entailment。

在 QuoraQP 的準備過程中，數據集的準備者們提到：

我們最初的采樣方法返回了一個很不均衡的數據集，其中正例多過負例。因此我們補充了一些負樣本進去，其中負樣本的一個來源是“相關問題”。

這種“補充負樣本”的操作可能就是 QuoraQP 有偏的原因，我們推測這些后添加進去的句子可能只在數據集中出現了很少的次數，從下圖我們可以看出，在 QuoraQP 中，當句子 1 和句子 2 出現次數都很多的時候，標簽傾向于為 1；而當有一個句子出現次數很少的時候，標簽則傾向為 0。

數據集有偏會帶來什么影響？

我們的實驗表明模型能捕捉到這種 bias，而這會導致以下兩個結果：

模型的評估結果“虛高”，因為 Bias 在原始的測試集中有很強的預測能力。
模型的真實泛化能力下降，因為這種 bias 是不可推廣的。

去偏方法

首先我們定義了一個 Leakage-Neutral 分布為 X×A×Y×S，其中 X 是語義特征空間，Y 是語義標簽空間，L 是采樣策略特征空間，S 是采樣意圖空間。S 表示數據集準備者在采樣時想要選擇的樣本標簽。比如 S=1，代表準備者想采一個正樣本。

我們假設，在數據集準備過程中，對于每個樣本 (x,y,s,l)，如果 s=y，則該樣本被采進數據集，否則該樣本被丟掉。通過這種方式，產生了現有的有偏的數據集分布。

我們對 Leakage-Neutral 分布的定義有以下假設，第一個假設是 Leakage-Neutral 假設：

這個假設表明在 Leakage-Neutral 分布中，采樣決策變量 L 和標簽 Y 無關，這也使得 Leakage-Neutral 分布更貼近真實分布。第二個假設是：

這表明采樣意圖變量 S 由采樣決策變量 L 完全決定。

我們證明，通過對模型在訓練和評估的時候添加適當的 sample weight，可以等價于在 Leakage-Neutral 分布中訓練和評估。算法的流程圖如下，指的是原本有偏數據集的分布，具體證明見論文。

在實踐中，我們用隨機森林 100 折交叉預測來估計，同時我們為 P(Y=0) 設定了一個特定值來保持先驗不變。

實驗結果

不失一般性，在論文中，我們以?QuoraQP 為分析對象。QuoraQP 是一個二標簽文本對匹配數據集，旨在判斷給定的兩句話語義上是否重復（重復為 1，不重復為 0）。

我們把在原有偏數據集中正常訓練的模型叫?Biased Model，把加權訓練的模型叫?Debiased Model。在有偏的測試集中正常測試的結果叫?Biased Eva，加權測試的結果叫?Debiased Eva。

如圖三所示，Debiased Model?在有偏評估中低于?Biased Model，這是因為 bias 在原測試集中有預測能力。而在加權評估中?Debiased Model?高于?Biased Model，這是因為加權測試中 bias pattern 沒有預測能力，當模型捕捉到 bias 并利用其進行預測，這實際上會起負作用。

如圖四所示，加權訓練的模型在合成數據集、MSRP、SICK 中均有更好的預測能力，說明我們的方法能有效降低 bias 的影響，提升模型的真實泛化能力。

總結

在本文中，我們調研了六個 NLSM 數據集，發現這些數據集中廣泛地存在一種樣本選擇偏差，以致于只使用三種和語義完全無關的特征，就可以在一些數據集上達到和 LSTM 差不多的準確率，針對這種偏差，我們提出了一種不需要任何額外資源的去偏訓練、評估方法，實驗證明我們的方法能提升模型的真實泛化能力并提供更可靠的評估結果。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔