當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文献阅读课13-DSGAN: Generative Adversarial Training for （远程监督关系抽取，句子级去噪）

發布時間：2024/7/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了文献阅读课13-DSGAN: Generative Adversarial Training for （远程监督关系抽取，句子级去噪）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

Abstract
1.Introduction
2.相關工作
3 Adversarial Learning for Distant Supervision
- 3.1 Pre-Training Strategy
- 3.2 Generative Adversarial Training for Distant Supervision Relation Extraction
- 3.3 Cleaning Noisy Dataset with Generator
4.實驗
- 4.2 Training Process of DSGAN
- 4.3 Quality of Generator
- 4.4 Performance on Distant Supervision Relation Extraction
5.結論

Qin, P., et al. (2018). DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).

Abstract

遠程監督可以有效地標記關系提取的數據，但是受到噪聲標記問題的困擾。最近的作品主要執行軟袋級降噪策略，以找到句子包中相對較好的樣本，與在句子級別做出假陽性樣本的硬判決相比，這是次優的。在本文中，我們介紹了一個名為DSGAN的對抗性學習框架，用于學習一個句子級的真正生成器。受Generative Adversarial Networks的啟發，我們將生成器生成的正樣本視為負樣本來訓練鑒別器。獲得最佳發生器，直到鑒別器的辨別能力下降最大。我們采用生成器來過濾遠程監督訓練數據集，并將誤報實例重新分配到負集中，從而為關系分類提供清潔的數據集。實驗結果表明，與現有技術系統相比，該策略顯著提高了遠程監督關系提取的性能。

關系抽取
- 已知文本中實體，對句子中存在的實體對的關系進行預測
- 遠程監督
- 使用句子包
  - (h,r,t)三元組的句子分在一個包中
  - 遠程監督存在噪音
  - 以GAN來去除噪音，獲得噪音低的包
    - 生成器：找到句子中好的樣本
    - 判別器：將生成器產生的樣本視作負樣本來訓練

1.Introduction

由于現實世界中存在大量事實，因此非常昂貴，并且人類注釋器幾乎不可能對訓練數據集進行注釋以滿足各行各業的需求。這個問題越來越受到關注。 Fewshot學習和零鏡頭學習（Xian et al。，2017）嘗試用很少的標記數據預測看不見的類，甚至沒有標記數據。不同的是，遠程監督（Mintz et al。，2009; Hoffmann et al。，2011; Surdeanu et al。，2012）是為了與遠程監督（DS）之間看不見的關系，從純文本中有效地生成關系數據。然而，它自然會帶來一些缺陷：由此產生的遠程監督訓練樣本通常非常嘈雜（如圖1所示），這是阻礙性能的主要問題（Roth等，2013）。大多數當前最先進的方法（Zeng et al。，2015; Lin et al。，2016）在實體對的句子包中進行去噪操作，并將此過程整合到遠程監管關系中。。實際上，這些方法可以過濾大量的噪聲樣本;然而，他們忽略了一個實體對的所有句子都是假陽性的情況，這也是遠程監管數據集中的常見現象。在這種考慮下，一個獨立而準確的句子級降噪策略是更好的選擇。
在本文中，我們設計了一個對抗性學習過程（Goodfellow等，2014; Radford等，2015），以獲得一個句子級生成器，它可以識別來自嘈雜的遠程監督數據集的真實陽性樣本，而無需任何監督信息。在圖1中，假陽性樣本的存在使得DS決策邊界不是最理想的，因此阻礙了關系提取的性能。然而，就數量而言，真陽性樣本仍占據大部分比例;這是我們方法的先決條件。給定具有DS數據集決策邊界的鑒別器（圖1中的棕色決策邊界），生成器嘗試從DS正數據集生成真正的正樣本;然后，我們為生成的樣本分配負標簽，其余樣本分配正標簽以挑戰鑒別器。在這種對抗性設置下，如果生成的樣本集包含更多真實的陽性樣本，并且剩余集合中剩余更多的假陽性樣本，則鑒別器的分類能力將下降得更快。根據經驗，我們證明了我們的方法在各種基于深度神經網絡的模型中帶來了一致的性能提升，在廣泛使用的紐約時報數據集上實現了強大的性能（Riedel等，2010）。我們的貢獻是三方面的：

標注困難
- few-shot：通過少量標注來預測不可見的類
- zero-shot:無標注來預測不可見的類
- 遠程監督：
  - 噪聲大
    - 去噪
    - 以前：在實體對的句子包中去噪
      - 忽略了實體對的所有句子均是假陽性FP的可能
        假陽性：預測為真，實際為假
        在遠程監督中很常見
    - 解決：獨立而準確的句子級去噪

2.相關工作

為了解決上述數據稀疏性問題，Mintz等人。（2009）首先通過遠程監督將未標記的文本語料庫與Freebase對齊。然而，遠程監督不可避免地受到錯誤的標簽問題的困擾。早期的工作不是明確地去除噪聲實例，而是打算抑制噪聲。Riedel等。（2010）在關系抽取中采用多實例單標簽學習;霍夫曼等人。（2011年）和Surdeanu等人。（2012）模型遠程監督關系提取作為多實例多標簽問題。
最近，已經提出了一些基于深度學習的模型（Zeng等人，2014; Shen和Huang，2016）來解決關系提取問題。當然，有些作品試圖通過深度學習技術來緩解錯誤的標注問題，并將它們的去噪過程集成到關系提取中。曾等人。（2015）選擇一個最合理的句子來表示實體對之間的關系，這不可避免地錯過了一些有價值的信息。林等人。（2016）計算一個實體對的所有句子的一系列軟注意權重，不正確的句子可以減權;基于同樣的想法，Ji等人。（2017）將有用的實體信息帶入注意力量的計算中。然而，與這些軟注意權重分配策略相比，在關系提取之前識別來自遠程監督數據集的真實陽性樣本是更好的選擇。Takamatsu等。（2012）基于從許多NLP工具中提取的語言特征構建噪聲濾波策略，包括NER和依賴樹，這不可避免地會遇到錯誤傳播問題;而我們只是利用字嵌入作為輸入信息。在這項工作中，我們學習了一個真正的識別器（生成器），它獨立于實體對的關系預測，因此它可以直接應用于任何現有的關系提取分類器之上。然后，我們將假陽性樣本重新分配到負集中，以便充分利用遠程標記的資源。

遠程監督
- Mintz et al. (2009) 提出：對齊
- 噪音
  - 早期：抑制噪音
    - Riedel et al. (2010) ：多實例單標簽學習
    - Hoffmann et al. (2011) and Surdeanu et al. (2012) ：多實例多標簽
  - 深度學習：將深度學習去噪集成到關系抽取中
    - Zeng et al. (2015) ：句子包里挑一個
      - 錯過了有價值的信息
    - Lin et al. (2016)：soft attention
      - 給包中的句子加權
    - Ji et al. (2017)：attention中包含了實體信息
  - 在關系抽取之前，分辨出真假樣本：
    - Takamatsu et al. (2012) ：噪聲濾波器
      - 使用NER和依賴樹的語言特征
      - 難以避免錯誤傳遞
    - 本文：僅使用word embedding

3 Adversarial Learning for Distant Supervision

在本節中，我們將介紹一種對抗性學習流程，以獲得一個強大的生成器，該生成器可以在沒有任何監督信息的情況下從嘈雜的遠程監督數據集中自動發現真正的正樣本。我們的對抗性學習過程概述如圖2所示。給定一組遠程標記的句子，生成器試圖從中生成真正的正樣本;但是，這些生成的樣本被視為負樣本以訓練鑒別器。因此，當完成掃描DS陽性數據集一次時，生成器發現的真實陽性樣本越多，鑒別器獲得的性能就越明顯。在對抗訓練之后，我們希望獲得一個強大的發生器，它能夠迫使鑒別器最大程度地喪失其分類能力。
在下一節中，我們描述了發生器和鑒別器之間的對抗性訓練管道，包括訓練前策略，目標函數和梯度計算。由于生成器涉及離散采樣步驟，因此我們引入了一種策略梯度方法來計算發電機的梯度。

DSGAN
- 目標：區分句子是不是好樣本
  - 只對標注為T的樣本做區分,將FP重新歸于負類
- 假設：標注為真的樣本，多數為TP
- 生成器：區分句子是TP還是FP,無需監督
  - 策略梯度：因為涉及離散采樣
- 輸入：word-embedding
- 判別器：
  - 將生成器生成的樣本標注為F
  - 原來的樣本，標注為T
  - 訓練判別器
  - 如果生成集合中，TP多，而剩余集合中FP多，則鑒別器分類能力下降的很快
- 貢獻
  - 我們是第一個考慮對抗性學習去噪遠程監督關系提取數據集的人。
  - 我們的方法是句子級和模式診斷，因此它可以用作任何關系提取器(即插即用技術)。
  - 我們證明我們的方法可以在沒有任何監督信息下生成一個干凈的數據集，從而提高最近提出的神經關系提取器的性能。

3.1 Pre-Training Strategy

GANs：
- 預訓練：生成器和判別器
  - 必須
  - 目標：得到更好的初始化參數，容易收斂
  - 判別器：遠程監督數據集的positive set P和negtive set $N^D$
  - 生成器：
    - 預訓練到精度達到90%
    - 使用P和另一個negtive set $N^G$
    - 讓生成器對P過擬合
      - 目標：讓生成器在訓練過程開始時錯誤地給出所有有噪聲的DS的陽性樣本高概率
        之后會通過對抗學習降低FP的這個概率

3.2 Generative Adversarial Training for Distant Supervision Relation Extraction

DSGAN的生成器和鑒別器都由簡單的CNN建模，因為CNN在理解句子方面表現良好（Zeng et al。，2014），并且它具有比基于RNN的網絡更少的參數。對于關系提取，輸入信息由句子和實體對組成;因此，作為共同背景（Zeng et al。，2014; Nguyen and Grishman，2015），我們使用字嵌入和位置嵌入將輸入實例轉換為連續的實值向量。

網絡
- CNN:
  - 參數比RNN少
  - 語言理解能力強
- 輸入：句子+實體對
  - 使用:word embedding + position embedding
生成器
- 與計算機視覺的區別
  - 不用生成全新的句子（圖）,只需要從集合中判別出TP即可
- 是“從概率分布中抽樣 ”的離散的GANs
句子 $s_j$ 是TP的概率
- 生成器： $P_G(s_j)$
- 判別器： $P_D(s_j)$
1個epoch掃描一次P
更有效的訓練+更多反饋
- P–>劃分成N個batch
- 處理完一個batch,更新一次參數 $θG,θD\theta_G,\theta_D$
目標函數
- 生成器
  - 對一個batch $B_i$ ，生成器得到他的概率分布 ${P_G(s_j)\}_{j=1,...,|B_i|}$
  - 依據這個概率分布采樣，得到集合T
  - $T=\{s_j\},s_j~P_G(s_j),j=1,2,...,|B_i|$ –對G而言是正樣本
  - $P_G(s_j)$ 大的，是生成器視為正例的句子，但對判別器而言是負例
  - 為了挑戰判別器，損失函數（最大化）： $LG=Σsj∈TlogpD(sj)L_G=\Sigma_{s_j\in T}logp_D(s_j)$
    - $LG=Σsj∈TlogpG(sj)L_G=\Sigma_{s_j\in T}logp_G(s_j)$ –感覺應該是G,原文是D
- 判別器：
  - 樣本：
    - T:對D而言是負樣本
    - $F=B_i-T$ :正樣本
  - 損失：
    - 與二分類相同
    - $LD=?(Σsj∈(Bi?T)logpD(sj)+Σsj∈Tlog(1?pD(sj)))L_D=-(\Sigma_{s_j\in(B_i-T)}log p_D(s_j)+\Sigma_{s_j\in T}log(1-p_D(s_j)))$ (最小化）
    - 可以用任何梯度的方法優化
    - epoch:
      - 與先前工作中的鑒別器的常見設置不同，
      - 我們的鑒別器在每個epoch開始時加載相同的預訓練參數集
        原因1：想要的是強大的生成器而不是判別器
        原因2：生成器只采樣，不生成全新的數據
        所以，判別器相對容易崩潰
      - 假設：一個判別器在一個epoch內具有最大的性能下降時，就會產生最穩定的生成器
- 為保證前提條件相同，每個epoch的B相同（batch劃分相同）

優化
- 生成器：
  - 目標：從參數化概率分布中最大化樣本的給定函數的期望。（類似一步強化學習）
  - 訓練：策略梯度策略
    - 類比到強化學習中
      - $s_j$ :狀態
      - $P_G(s_j)$ :策略
      - 獎勵：（兩個角度來定義）
        從對抗訓練角度，希望判別器判別生成器生成的為1（但對判別器來說，標注為0）
        $r1=1∣T∣Σsj∈TpD(sj)?b1r_1=\frac{1}{|T|}\Sigma_{s_j\in T}p_D(s_j)-b_1$ ,b1：可以減小方差
        
        來自 $N^D$ 的預測概率的平均值
        $p~=1∣ND∣Σsj∈NDpD(sj)\tilde{p}=\frac{1}{|N^D|}\Sigma_{s_j\in N^D}p_D(s_j)$
        $N^D$ :參與判別器的預訓練過程，但不參與對抗訓練過程
        當判別器的分類能力降低， $N^D$ 判別為0的準確率逐漸下降–> $p~\tilde{p}$ 增加了–>生成器更好
        
        $r2=η(p~ik?b2),b2=maxp~im,m=1,...,k?1r_2=\eta(\tilde{p}_i^k-b_2),b_2=max{\tilde{p}_i^m},m=1,...,k-1$
    - 梯度： $?θDLG=Σsj∈BiEsj?pG(sj)r?θGlogpG(sj)=1∣T∣Σsj∈Tr?θGlogpG(sj)\nabla_{\theta_D}L_G\\=\Sigma_{s_j\in B_i}E_{s_j-p_G(s_j)}r\nabla_{\theta_G}log p_G(s_j)\\=\frac{1}{|T|}\Sigma_{s_j\in T}r\nabla_{\theta_G}log p_G(s_j)$

3.3 Cleaning Noisy Dataset with Generator

上面訓練得到的生成器–當做二分類器
- 過濾噪聲樣本
- 為了達到數據的最大利用率：
  - 實體對的句子包中所有句子均被認定為FP,則該實體對將被分配到負集中
  - 這樣，遠程監督訓練集的規模不變
  - （？？負集啥意思，認為他倆沒關系？）

在我們的對抗學習過程之后，我們獲得一個關系類型的生成器;這些生成器具有為相應的關系類型生成真陽性樣本的能力。因此，我們可以采用發生器來過濾來自遠程監控數據集的噪聲樣本。簡單而明確地，我們將發電機用作二元分類器。為了達到數據的最大利用率，我們制定了一個策略：對于具有一組帶注釋的句子的實體對，如果所有這些句子被我們的生成器確定為假陰性，則該實體對將被重新分配到負集中。在這一戰略下，遠程監督訓練集的規模保持不變。

4.實驗

本文提出了一種對抗性學習策略，用于從嘈雜的遠程監督數據集中檢測真實的陽性樣本。由于缺乏有監督的信息，我們定義了一個發生器，通過與鑒別器競爭來啟發式學習識別真正的陽性樣本。因此，我們的實驗旨在證明我們的DSGAN方法具有此功能。為此，我們首先簡要介紹數據集和評估指標。從經驗上講，對抗性學習過程在某種程度上具有不穩定性;因此，我們接下來說明我們的對抗訓練過程的趨同。最后，我們從兩個角度證明了我們的發電機的效率：生成的樣本的質量和廣泛使用的遠程監督關系提取任務的性能。

實驗目標：
- 證明我們的DSGAN方法具有此功能（區分FP和TP)
- 證明我們的對抗訓練收斂了
- 效率好
  - 生成樣本的質量
  - 對遠程監督關系提取任務性能的提升
數據集
- Reidel dataset（Riedel et al。，2010）
  - Freebase的三元組+NYT的句子
- 測試：held-out evaluation
  - 它構建了一個測試集，其中實體對也從Freebase中提取。
  - 同樣，從測試文章中發現的關系事實會自動與Freebase中的關聯事實進行比較
word embedding:word embedding matrix by Lin et al. (2016)
position embedding:最大距離-30和30
CNN：簡單的cnn
超參數

由于缺少相應的標記數據集，因此沒有地面實況測試數據集來評估遠程監督關系提取系統的性能。在這種情況下，以前的工作采用保持評估來評估他們的系統，這可以提供精確的近似測量，而不需要昂貴的人工評估。它構建了一個測試集，其中實體對也從Freebase中提取。同樣，從測試文章中發現的關系事實會自動與Freebase中的關聯事實進行比較。

4.2 Training Process of DSGAN

由于對抗性學習被廣泛認為是一種有效但不穩定的技術，因此我們在這里說明了培訓過程中的一些屬性變化，以此表明我們提出的方法的學習趨勢。我們使用3種關系類型作為例子：/ business / person / company，/ people / person / place living和/ location / neighborhood / neighborhood of。因為它們來自Reidel數據集的三個主要類別（商務，人員，位置），并且它們都具有足夠的遠程監督實例。圖3中的第一行顯示了訓練期間鑒別器的分類能力變化。

本文對抗訓練的收斂性
- 對抗訓練過程中判別器在 $N^D$ 上精度下降（不用 $N^D$ 進行對抗訓練了）
- 每個epoch從同一起點開始

精度由負set4 $N^D$ 計算得出。在對抗性學習開始時，鑒別器在 $N^D$ 上表現良好;此外，在對抗訓練期間不使用 $N^D$ 。因此， $N^D$ 的準確度是反映鑒別器性能的標準。在早期時期，來自發生器的生成樣本提高了準確性，因為它沒有挑戰鑒別器的能力;然而，隨著訓練時期的增加，這種準確性逐漸降低，這意味著鑒別器變得更弱。這是因為發電機逐漸學會在每個袋子中產生更準確的真陽性樣品。在提議的對抗性學習過程之后，發生器足夠強大以使鑒別器崩潰。圖4給出了更準確的趨勢顯示趨勢。請注意，每個呈現的關系類型都存在準確性下降的臨界點。這是因為我們給發生器挑戰鑒別器的機會只是一次掃描噪聲數據集;當發電機已經足夠穩健時，就會產生這個臨界點。因此，當模型達到臨界點時，我們會停止訓練過程。總之，我們的發電機的能力可以穩步增加，這表明DSGAN是一種強大的對抗性學習策略。

4.3 Quality of Generator

圖三可見：
- 訓練得快，容易收斂，擬合度高–>則數據質量好
- 隨機選擇的正集<用預訓練的生成器選擇的<DSGAN選擇的正集
- 與訓練的生成器無法提供FP和TP之間的界限

由于缺乏監督信息，我們從另一個角度驗證發電機的質量。結合圖1，對于一種關系類型，真陽性樣本必須具有明顯更高的相關性（紫色圓圈簇）。因此，具有更多真陽性樣本的陽性集更容易訓練;換句話說，收斂速度更快，訓練集的擬合度更高。基于此，我們在圖3的第二行中給出了比較測試。我們從嘈雜的遠程監督數據集P構建三個正數據集：隨機選擇的正集，正集基于預訓練的發生器，正集基于DSGAN發生器。對于預訓練的發生器，根據從高到低為正的概率選擇正組。這三組具有相同的尺寸并伴有相同的負集。顯然，DSGAN發生器的正設置產生了最佳性能，這表明我們的對抗性學習過程能夠產生強大的真正正發生器。此外，預訓練的發電機也具有良好的性能;然而，與DSGAN發生器相比，它不能提供誤報和真陽性之間的界限。

4.4 Performance on Distant Supervision Relation Extraction

基于所提出的對抗性學習過程，我們獲得了一個能夠識別來自嘈雜的遠程監督數據集的真實陽性樣本的生成器。當然，遠程監督關系提取的改進可以為我們的發電機提供直觀的評估。我們采用3.3節中提到的策略來重新定位數據集。獲得此重新分配的數據集后，我們將其應用于培訓最新的最先進模型，并觀察它是否為這些系統帶來了進一步的改進。曾等人。（2015年）和林等人。（2016）是解決遠程監管關系提取錯誤標注問題的有力模型。根據圖5和圖6中顯示的比較，所有四個模型（CNN + ONE，CNN + ATT，PCNN + ONE和PCNN + ATT）實現了進一步的改進。

使用DSGAN可以提升遠程監督關系抽取的效果比基本模型好

即使曾等人。（2015年）和林等人。（2016）旨在減輕假陽性樣本的影響，它們都只關注實體對的句子包中的噪聲過濾。曾等人。（2015）將至少一個多實例學習與深度神經網絡相結合，僅提取一個活動句子來表示目標實體對;林等人。（2016）將軟注意權重分配給一個實體對的所有句子的表示，然后使用這些表示的加權和來預測目標實體對之間的關系。然而，根據我們對Riedel數據集的人工檢查（Riedel et al。，2010），我們發現另一個假陽性案例，即特定實體對的所有句子都是錯誤的;但是上述方法忽略了這種情況，而所提出的方法可以解決這個問題。我們的DSGAN流水線與實體對的關系預測無關，因此我們可以采用我們的生成器作為真正的指標，在關系提取之前過濾嘈雜的遠程監管數據集，這解釋了圖5和圖6中這些進一步改進的起源。。為了給出更直觀的比較，在表2中，我們給出了每條PR曲線的AUC值，它反映了這些曲線下的面積大小。較大的AUC值反映出更好的性能。而且，從t檢驗評估的結果可以看出，所有p值都小于5e-02，因此改進是顯而易見的。

5.結論

遠程監督已成為關系提取的標準方法。然而，雖然它帶來了便利，但它也在遠程標記的句子中引入了噪音。在這項工作中，我們提出了第一個生成對抗性訓練方法，用于魯棒的遠程監督關系提取。更具體地說，我們的框架有兩個組成部分：一個產生真陽性的生成器，一個試圖對正負數據樣本進行分類的鑒別器。通過對抗訓練，我們的目標是逐漸降低鑒別器的性能，而發生器在達到平衡時提高預測真陽性的性能。我們的方法是模型不可知的，因此可以應用于任何遠程監督模型。根據經驗，我們證明了我們的方法可以顯著提高廣泛使用的紐約時間數據集上許多競爭基線的性能。

總結

以上是生活随笔為你收集整理的文献阅读课13-DSGAN: Generative Adversarial Training for （远程监督关系抽取，句子级去噪）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spring+SpringMVC+Myb
下一篇： 2021-10-28嵌入式人工智能