日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

發(fā)布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • Abstract
  • 1.Introduction
  • 2.相關(guān)工作
  • 3 Adversarial Learning for Distant Supervision
    • 3.1 Pre-Training Strategy
    • 3.2 Generative Adversarial Training for Distant Supervision Relation Extraction
    • 3.3 Cleaning Noisy Dataset with Generator
  • 4.實驗
    • 4.2 Training Process of DSGAN
    • 4.3 Quality of Generator
    • 4.4 Performance on Distant Supervision Relation Extraction
  • 5.結(jié)論

Qin, P., et al. (2018). DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).

Abstract

遠(yuǎn)程監(jiān)督可以有效地標(biāo)記關(guān)系提取的數(shù)據(jù),但是受到噪聲標(biāo)記問題的困擾。最近的作品主要執(zhí)行軟袋級降噪策略,以找到句子包中相對較好的樣本,與在句子級別做出假陽性樣本的硬判決相比,這是次優(yōu)的。在本文中,我們介紹了一個名為DSGAN的對抗性學(xué)習(xí)框架,用于學(xué)習(xí)一個句子級的真正生成器。受Generative Adversarial Networks的啟發(fā),我們將生成器生成的正樣本視為負(fù)樣本來訓(xùn)練鑒別器。獲得最佳發(fā)生器,直到鑒別器的辨別能力下降最大。我們采用生成器來過濾遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)集,并將誤報實例重新分配到負(fù)集中,從而為關(guān)系分類提供清潔的數(shù)據(jù)集。實驗結(jié)果表明,與現(xiàn)有技術(shù)系統(tǒng)相比,該策略顯著提高了遠(yuǎn)程監(jiān)督關(guān)系提取的性能。

  • 關(guān)系抽取
    • 已知文本中實體,對句子中存在的實體對的關(guān)系進(jìn)行預(yù)測
    • 遠(yuǎn)程監(jiān)督
    • 使用句子包
      • (h,r,t)三元組的句子分在一個包中
      • 遠(yuǎn)程監(jiān)督存在噪音
      • 以GAN來去除噪音,獲得噪音低的包
        • 生成器:找到句子中好的樣本
        • 判別器:將生成器產(chǎn)生的樣本視作負(fù)樣本來訓(xùn)練

1.Introduction

由于現(xiàn)實世界中存在大量事實,因此非常昂貴,并且人類注釋器幾乎不可能對訓(xùn)練數(shù)據(jù)集進(jìn)行注釋以滿足各行各業(yè)的需求。這個問題越來越受到關(guān)注。 Fewshot學(xué)習(xí)和零鏡頭學(xué)習(xí)(Xian et al。,2017)嘗試用很少的標(biāo)記數(shù)據(jù)預(yù)測看不見的類,甚至沒有標(biāo)記數(shù)據(jù)。不同的是,遠(yuǎn)程監(jiān)督(Mintz et al。,2009; Hoffmann et al。,2011; Surdeanu et al。,2012)是為了與遠(yuǎn)程監(jiān)督(DS)之間看不見的關(guān)系,從純文本中有效地生成關(guān)系數(shù)據(jù)。然而,它自然會帶來一些缺陷:由此產(chǎn)生的遠(yuǎn)程監(jiān)督訓(xùn)練樣本通常非常嘈雜(如圖1所示),這是阻礙性能的主要問題(Roth等,2013)。大多數(shù)當(dāng)前最先進(jìn)的方法(Zeng et al。,2015; Lin et al。,2016)在實體對的句子包中進(jìn)行去噪操作,并將此過程整合到遠(yuǎn)程監(jiān)管關(guān)系中。 。實際上,這些方法可以過濾大量的噪聲樣本;然而,他們忽略了一個實體對的所有句子都是假陽性的情況,這也是遠(yuǎn)程監(jiān)管數(shù)據(jù)集中的常見現(xiàn)象。在這種考慮下,一個獨立而準(zhǔn)確的句子級降噪策略是更好的選擇。
在本文中,我們設(shè)計了一個對抗性學(xué)習(xí)過程(Goodfellow等,2014; Radford等,2015),以獲得一個句子級生成器,它可以識別來自嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本,而無需任何監(jiān)督信息。在圖1中,假陽性樣本的存在使得DS決策邊界不是最理想的,因此阻礙了關(guān)系提取的性能。然而,就數(shù)量而言,真陽性樣本仍占據(jù)大部分比例;這是我們方法的先決條件。給定具有DS數(shù)據(jù)集決策邊界的鑒別器(圖1中的棕色決策邊界),生成器嘗試從DS正數(shù)據(jù)集生成真正的正樣本;然后,我們?yōu)樯傻臉颖痉峙湄?fù)標(biāo)簽,其余樣本分配正標(biāo)簽以挑戰(zhàn)鑒別器。在這種對抗性設(shè)置下,如果生成的樣本集包含更多真實的陽性樣本,并且剩余集合中剩余更多的假陽性樣本,則鑒別器的分類能力將下降得更快。根據(jù)經(jīng)驗,我們證明了我們的方法在各種基于深度神經(jīng)網(wǎng)絡(luò)的模型中帶來了一致的性能提升,在廣泛使用的紐約時報數(shù)據(jù)集上實現(xiàn)了強大的性能(Riedel等,2010)。我們的貢獻(xiàn)是三方面的:

  • 標(biāo)注困難
    • few-shot:通過少量標(biāo)注來預(yù)測不可見的類
    • zero-shot:無標(biāo)注來預(yù)測不可見的類
    • 遠(yuǎn)程監(jiān)督:
      • 噪聲大
        • 去噪
        • 以前:在實體對的句子包中去噪
          • 忽略了實體對的所有句子均是假陽性FP的可能
            • 假陽性:預(yù)測為真,實際為假
            • 在遠(yuǎn)程監(jiān)督中很常見
        • 解決:獨立而準(zhǔn)確的句子級去噪

2.相關(guān)工作

為了解決上述數(shù)據(jù)稀疏性問題,Mintz等人。 (2009)首先通過遠(yuǎn)程監(jiān)督將未標(biāo)記的文本語料庫與Freebase對齊。然而,遠(yuǎn)程監(jiān)督不可避免地受到錯誤的標(biāo)簽問題的困擾。早期的工作不是明確地去除噪聲實例,而是打算抑制噪聲。Riedel等。 (2010)在關(guān)系抽取中采用多實例單標(biāo)簽學(xué)習(xí);霍夫曼等人。 (2011年)和Surdeanu等人。 (2012)模型遠(yuǎn)程監(jiān)督關(guān)系提取作為多實例多標(biāo)簽問題。
最近,已經(jīng)提出了一些基于深度學(xué)習(xí)的模型(Zeng等人,2014; Shen和Huang,2016)來解決關(guān)系提取問題。當(dāng)然,有些作品試圖通過深度學(xué)習(xí)技術(shù)來緩解錯誤的標(biāo)注問題,并將它們的去噪過程集成到關(guān)系提取中。曾等人。 (2015)選擇一個最合理的句子來表示實體對之間的關(guān)系,這不可避免地錯過了一些有價值的信息。林等人。 (2016)計算一個實體對的所有句子的一系列軟注意權(quán)重,不正確的句子可以減權(quán);基于同樣的想法,Ji等人。 (2017)將有用的實體信息帶入注意力量的計算中。然而,與這些軟注意權(quán)重分配策略相比,在關(guān)系提取之前識別來自遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本是更好的選擇。Takamatsu等。 (2012)基于從許多NLP工具中提取的語言特征構(gòu)建噪聲濾波策略,包括NER和依賴樹,這不可避免地會遇到錯誤傳播問題;而我們只是利用字嵌入作為輸入信息。在這項工作中,我們學(xué)習(xí)了一個真正的識別器(生成器),它獨立于實體對的關(guān)系預(yù)測,因此它可以直接應(yīng)用于任何現(xiàn)有的關(guān)系提取分類器之上。然后,我們將假陽性樣本重新分配到負(fù)集中,以便充分利用遠(yuǎn)程標(biāo)記的資源。

  • 遠(yuǎn)程監(jiān)督
    • Mintz et al. (2009) 提出:對齊
    • 噪音
      • 早期:抑制噪音
        • Riedel et al. (2010) :多實例單標(biāo)簽學(xué)習(xí)
        • Hoffmann et al. (2011) and Surdeanu et al. (2012) :多實例多標(biāo)簽
      • 深度學(xué)習(xí):將深度學(xué)習(xí)去噪集成到關(guān)系抽取中
        • Zeng et al. (2015) :句子包里挑一個
          • 錯過了有價值的信息
        • Lin et al. (2016):soft attention
          • 給包中的句子加權(quán)
        • Ji et al. (2017):attention中包含了實體信息
      • 在關(guān)系抽取之前,分辨出真假樣本:
        • Takamatsu et al. (2012) :噪聲濾波器
          • 使用NER和依賴樹的語言特征
          • 難以避免錯誤傳遞
        • 本文:僅使用word embedding

3 Adversarial Learning for Distant Supervision

在本節(jié)中,我們將介紹一種對抗性學(xué)習(xí)流程,以獲得一個強大的生成器,該生成器可以在沒有任何監(jiān)督信息的情況下從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中自動發(fā)現(xiàn)真正的正樣本。我們的對抗性學(xué)習(xí)過程概述如圖2所示。給定一組遠(yuǎn)程標(biāo)記的句子,生成器試圖從中生成真正的正樣本;但是,這些生成的樣本被視為負(fù)樣本以訓(xùn)練鑒別器。因此,當(dāng)完成掃描DS陽性數(shù)據(jù)集一次時,生成器發(fā)現(xiàn)的真實陽性樣本越多,鑒別器獲得的性能就越明顯。在對抗訓(xùn)練之后,我們希望獲得一個強大的發(fā)生器,它能夠迫使鑒別器最大程度地喪失其分類能力。
在下一節(jié)中,我們描述了發(fā)生器和鑒別器之間的對抗性訓(xùn)練管道,包括訓(xùn)練前策略,目標(biāo)函數(shù)和梯度計算。由于生成器涉及離散采樣步驟,因此我們引入了一種策略梯度方法來計算發(fā)電機(jī)的梯度。

  • DSGAN
    • 目標(biāo):區(qū)分句子是不是好樣本
      • 只對標(biāo)注為T的樣本做區(qū)分,將FP重新歸于負(fù)類
    • 假設(shè):標(biāo)注為真的樣本,多數(shù)為TP
    • 生成器:區(qū)分句子是TP還是FP,無需監(jiān)督
      • 策略梯度:因為涉及離散采樣
    • 輸入:word-embedding
    • 判別器:
      • 將生成器生成的樣本標(biāo)注為F
      • 原來的樣本,標(biāo)注為T
      • 訓(xùn)練判別器
      • 如果生成集合中,TP多,而剩余集合中FP多,則鑒別器分類能力下降的很快
    • 貢獻(xiàn)
      • 我們是第一個考慮對抗性學(xué)習(xí)去噪遠(yuǎn)程監(jiān)督關(guān)系提取數(shù)據(jù)集的人。
      • 我們的方法是句子級和模式診斷,因此它可以用作任何關(guān)系提取器(即插即用技術(shù))。
      • 我們證明我們的方法可以在沒有任何監(jiān)督信息下生成一個干凈的數(shù)據(jù)集,從而提高最近提出的神經(jīng)關(guān)系提取器的性能。

3.1 Pre-Training Strategy

  • GANs:
    • 預(yù)訓(xùn)練:生成器和判別器
      • 必須
      • 目標(biāo):得到更好的初始化參數(shù),容易收斂
      • 判別器:遠(yuǎn)程監(jiān)督數(shù)據(jù)集的positive set P和negtive set NDN^DND
      • 生成器:
        • 預(yù)訓(xùn)練到精度達(dá)到90%
        • 使用P和另一個negtive set NGN^GNG
        • 讓生成器對P過擬合
          • 目標(biāo):讓生成器在訓(xùn)練過程開始時錯誤地給出所有有噪聲的DS的陽性樣本高概率
            • 之后會通過對抗學(xué)習(xí)降低FP的這個概率

3.2 Generative Adversarial Training for Distant Supervision Relation Extraction

DSGAN的生成器和鑒別器都由簡單的CNN建模,因為CNN在理解句子方面表現(xiàn)良好(Zeng et al。,2014),并且它具有比基于RNN的網(wǎng)絡(luò)更少的參數(shù)。對于關(guān)系提取,輸入信息由句子和實體對組成;因此,作為共同背景(Zeng et al。,2014; Nguyen and Grishman,2015),我們使用字嵌入和位置嵌入將輸入實例轉(zhuǎn)換為連續(xù)的實值向量。

  • 網(wǎng)絡(luò)
    • CNN:
      • 參數(shù)比RNN少
      • 語言理解能力強
    • 輸入:句子+實體對
      • 使用:word embedding + position embedding
  • 生成器
    • 與計算機(jī)視覺的區(qū)別
      • 不用生成全新的句子(圖),只需要從集合中判別出TP即可
    • 是“從概率分布中抽樣 ”的離散的GANs
  • 句子sjs_jsj?是TP的概率
    • 生成器:PG(sj)P_G(s_j)PG?(sj?)
    • 判別器:PD(sj)P_D(s_j)PD?(sj?)
  • 1個epoch掃描一次P
  • 更有效的訓(xùn)練+更多反饋
    • P–>劃分成N個batch
    • 處理完一個batch,更新一次參數(shù)θG,θD\theta_G,\theta_DθG?,θD?
  • 目標(biāo)函數(shù)
    • 生成器
      • 對一個batchBiB_iBi?,生成器得到他的概率分布{PG(sj)}j=1,...,∣Bi∣\{P_G(s_j)\}_{j=1,...,|B_i|}{PG?(sj?)}j=1,...,Bi??
      • 依據(jù)這個概率分布采樣,得到集合T
      • T={sj},sjPG(sj),j=1,2,...,∣Bi∣T=\{s_j\},s_j~P_G(s_j),j=1,2,...,|B_i|T={sj?},sj??PG?(sj?),j=1,2,...,Bi?–對G而言是正樣本
      • PG(sj)P_G(s_j)PG?(sj?)大的,是生成器視為正例的句子,但對判別器而言是負(fù)例
      • 為了挑戰(zhàn)判別器,損失函數(shù)(最大化):LG=Σsj∈TlogpD(sj)L_G=\Sigma_{s_j\in T}logp_D(s_j)LG?=Σsj?T?logpD?(sj?)
        • LG=Σsj∈TlogpG(sj)L_G=\Sigma_{s_j\in T}logp_G(s_j)LG?=Σsj?T?logpG?(sj?)–感覺應(yīng)該是G,原文是D
    • 判別器:
      • 樣本:
        • T:對D而言是負(fù)樣本
        • F=Bi?TF=B_i-TF=Bi??T:正樣本
      • 損失:
        • 與二分類相同
        • LD=?(Σsj∈(Bi?T)logpD(sj)+Σsj∈Tlog(1?pD(sj)))L_D=-(\Sigma_{s_j\in(B_i-T)}log p_D(s_j)+\Sigma_{s_j\in T}log(1-p_D(s_j)))LD?=?(Σsj?(Bi??T)?logpD?(sj?)+Σsj?T?log(1?pD?(sj?)))(最小化)
        • 可以用任何梯度的方法優(yōu)化
        • epoch:
          • 與先前工作中的鑒別器的常見設(shè)置不同,
          • 我們的鑒別器在每個epoch開始時加載相同的預(yù)訓(xùn)練參數(shù)集
            • 原因1:想要的是強大的生成器而不是判別器
            • 原因2:生成器只采樣,不生成全新的數(shù)據(jù)
              • 所以,判別器相對容易崩潰
          • 假設(shè):一個判別器在一個epoch內(nèi)具有最大的性能下降時,就會產(chǎn)生最穩(wěn)定的生成器
    • 為保證前提條件相同,每個epoch的B相同(batch劃分相同)

  • 優(yōu)化
    • 生成器:
      • 目標(biāo):從參數(shù)化概率分布中最大化樣本的給定函數(shù)的期望。(類似一步強化學(xué)習(xí))
      • 訓(xùn)練:策略梯度策略
        • 類比到強化學(xué)習(xí)中
          • sjs_jsj?:狀態(tài)
          • PG(sj)P_G(s_j)PG?(sj?):策略
          • 獎勵:(兩個角度來定義)
            • 從對抗訓(xùn)練角度,希望判別器判別生成器生成的為1(但對判別器來說,標(biāo)注為0)
              • r1=1∣T∣Σsj∈TpD(sj)?b1r_1=\frac{1}{|T|}\Sigma_{s_j\in T}p_D(s_j)-b_1r1?=T1?Σsj?T?pD?(sj?)?b1?,b1:可以減小方差
            • 來自NDN^DND的預(yù)測概率的平均值
              • p~=1∣ND∣Σsj∈NDpD(sj)\tilde{p}=\frac{1}{|N^D|}\Sigma_{s_j\in N^D}p_D(s_j)p~?=ND1?Σsj?ND?pD?(sj?)
              • NDN^DND:參與判別器的預(yù)訓(xùn)練過程,但不參與對抗訓(xùn)練過程
                • 當(dāng)判別器的分類能力降低,NDN^DND判別為0的準(zhǔn)確率逐漸下降–>p~\tilde{p}p~?增加了–>生成器更好
              • r2=η(p~ik?b2),b2=maxp~im,m=1,...,k?1r_2=\eta(\tilde{p}_i^k-b_2),b_2=max{\tilde{p}_i^m},m=1,...,k-1r2?=η(p~?ik??b2?),b2?=maxp~?im?,m=1,...,k?1
        • 梯度:?θDLG=Σsj∈BiEsj?pG(sj)r?θGlogpG(sj)=1∣T∣Σsj∈Tr?θGlogpG(sj)\nabla_{\theta_D}L_G\\=\Sigma_{s_j\in B_i}E_{s_j-p_G(s_j)}r\nabla_{\theta_G}log p_G(s_j)\\=\frac{1}{|T|}\Sigma_{s_j\in T}r\nabla_{\theta_G}log p_G(s_j)?θD??LG?=Σsj?Bi??Esj??pG?(sj?)?r?θG??logpG?(sj?)=T1?Σsj?T?r?θG??logpG?(sj?)

3.3 Cleaning Noisy Dataset with Generator

  • 上面訓(xùn)練得到的生成器–當(dāng)做二分類器
    • 過濾噪聲樣本
    • 為了達(dá)到數(shù)據(jù)的最大利用率:
      • 實體對的句子包中所有句子均被認(rèn)定為FP,則該實體對將被分配到負(fù)集中
      • 這樣,遠(yuǎn)程監(jiān)督訓(xùn)練集的規(guī)模不變
      • (??負(fù)集啥意思,認(rèn)為他倆沒關(guān)系?)

在我們的對抗學(xué)習(xí)過程之后,我們獲得一個關(guān)系類型的生成器;這些生成器具有為相應(yīng)的關(guān)系類型生成真陽性樣本的能力。因此,我們可以采用發(fā)生器來過濾來自遠(yuǎn)程監(jiān)控數(shù)據(jù)集的噪聲樣本。簡單而明確地,我們將發(fā)電機(jī)用作二元分類器。為了達(dá)到數(shù)據(jù)的最大利用率,我們制定了一個策略:對于具有一組帶注釋的句子的實體對,如果所有這些句子被我們的生成器確定為假陰性,則該實體對將被重新分配到負(fù)集中。在這一戰(zhàn)略下,遠(yuǎn)程監(jiān)督訓(xùn)練集的規(guī)模保持不變。

4.實驗

本文提出了一種對抗性學(xué)習(xí)策略,用于從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中檢測真實的陽性樣本。由于缺乏有監(jiān)督的信息,我們定義了一個發(fā)生器,通過與鑒別器競爭來啟發(fā)式學(xué)習(xí)識別真正的陽性樣本。因此,我們的實驗旨在證明我們的DSGAN方法具有此功能。為此,我們首先簡要介紹數(shù)據(jù)集和評估指標(biāo)。從經(jīng)驗上講,對抗性學(xué)習(xí)過程在某種程度上具有不穩(wěn)定性;因此,我們接下來說明我們的對抗訓(xùn)練過程的趨同。最后,我們從兩個角度證明了我們的發(fā)電機(jī)的效率:生成的樣本的質(zhì)量和廣泛使用的遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù)的性能。

  • 實驗?zāi)繕?biāo):
    • 證明我們的DSGAN方法具有此功能(區(qū)分FP和TP)
    • 證明我們的對抗訓(xùn)練收斂了
    • 效率好
      • 生成樣本的質(zhì)量
      • 對遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù)性能的提升
  • 數(shù)據(jù)集
    • Reidel dataset(Riedel et al。,2010)
      • Freebase的三元組+NYT的句子
    • 測試:held-out evaluation
      • 它構(gòu)建了一個測試集,其中實體對也從Freebase中提取。
      • 同樣,從測試文章中發(fā)現(xiàn)的關(guān)系事實會自動與Freebase中的關(guān)聯(lián)事實進(jìn)行比較
  • word embedding:word embedding matrix by Lin et al. (2016)
  • position embedding:最大距離-30和30
  • CNN:簡單的cnn
  • 超參數(shù)

由于缺少相應(yīng)的標(biāo)記數(shù)據(jù)集,因此沒有地面實況測試數(shù)據(jù)集來評估遠(yuǎn)程監(jiān)督關(guān)系提取系統(tǒng)的性能。在這種情況下,以前的工作采用保持評估來評估他們的系統(tǒng),這可以提供精確的近似測量,而不需要昂貴的人工評估。它構(gòu)建了一個測試集,其中實體對也從Freebase中提取。同樣,從測試文章中發(fā)現(xiàn)的關(guān)系事實會自動與Freebase中的關(guān)聯(lián)事實進(jìn)行比較。

4.2 Training Process of DSGAN

由于對抗性學(xué)習(xí)被廣泛認(rèn)為是一種有效但不穩(wěn)定的技術(shù),因此我們在這里說明了培訓(xùn)過程中的一些屬性變化,以此表明我們提出的方法的學(xué)習(xí)趨勢。我們使用3種關(guān)系類型作為例子:/ business / person / company,/ people / person / place living和/ location / neighborhood / neighborhood of。因為它們來自Reidel數(shù)據(jù)集的三個主要類別(商務(wù),人員,位置),并且它們都具有足夠的遠(yuǎn)程監(jiān)督實例。圖3中的第一行顯示了訓(xùn)練期間鑒別器的分類能力變化。

  • 本文對抗訓(xùn)練的收斂性
    • 對抗訓(xùn)練過程中判別器在NDN^DND上精度下降(不用NDN^DND進(jìn)行對抗訓(xùn)練了)
    • 每個epoch從同一起點開始

精度由負(fù)set4NDN^DND 計算得出。在對抗性學(xué)習(xí)開始時,鑒別器在NDN^DND上表現(xiàn)良好;此外,在對抗訓(xùn)練期間不使用NDN^DND。因此,NDN^DND的準(zhǔn)確度是反映鑒別器性能的標(biāo)準(zhǔn)。在早期時期,來自發(fā)生器的生成樣本提高了準(zhǔn)確性,因為它沒有挑戰(zhàn)鑒別器的能力;然而,隨著訓(xùn)練時期的增加,這種準(zhǔn)確性逐漸降低,這意味著鑒別器變得更弱。這是因為發(fā)電機(jī)逐漸學(xué)會在每個袋子中產(chǎn)生更準(zhǔn)確的真陽性樣品。在提議的對抗性學(xué)習(xí)過程之后,發(fā)生器足夠強大以使鑒別器崩潰。圖4給出了更準(zhǔn)確的趨勢顯示趨勢。請注意,每個呈現(xiàn)的關(guān)系類型都存在準(zhǔn)確性下降的臨界點。這是因為我們給發(fā)生器挑戰(zhàn)鑒別器的機(jī)會只是一次掃描噪聲數(shù)據(jù)集;當(dāng)發(fā)電機(jī)已經(jīng)足夠穩(wěn)健時,就會產(chǎn)生這個臨界點。因此,當(dāng)模型達(dá)到臨界點時,我們會停止訓(xùn)練過程。總之,我們的發(fā)電機(jī)的能力可以穩(wěn)步增加,這表明DSGAN是一種強大的對抗性學(xué)習(xí)策略。

4.3 Quality of Generator

  • 圖三可見:
    • 訓(xùn)練得快,容易收斂,擬合度高–>則數(shù)據(jù)質(zhì)量好
    • 隨機(jī)選擇的正集<用預(yù)訓(xùn)練的生成器選擇的<DSGAN選擇的正集
    • 與訓(xùn)練的生成器無法提供FP和TP之間的界限

由于缺乏監(jiān)督信息,我們從另一個角度驗證發(fā)電機(jī)的質(zhì)量。結(jié)合圖1,對于一種關(guān)系類型,真陽性樣本必須具有明顯更高的相關(guān)性(紫色圓圈簇)。因此,具有更多真陽性樣本的陽性集更容易訓(xùn)練;換句話說,收斂速度更快,訓(xùn)練集的擬合度更高。基于此,我們在圖3的第二行中給出了比較測試。我們從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集P構(gòu)建三個正數(shù)據(jù)集:隨機(jī)選擇的正集,正集基于預(yù)訓(xùn)練的發(fā)生器,正集基于DSGAN發(fā)生器。對于預(yù)訓(xùn)練的發(fā)生器,根據(jù)從高到低為正的概率選擇正組。這三組具有相同的尺寸并伴有相同的負(fù)集。顯然,DSGAN發(fā)生器的正設(shè)置產(chǎn)生了最佳性能,這表明我們的對抗性學(xué)習(xí)過程能夠產(chǎn)生強大的真正正發(fā)生器。此外,預(yù)訓(xùn)練的發(fā)電機(jī)也具有良好的性能;然而,與DSGAN發(fā)生器相比,它不能提供誤報和真陽性之間的界限。

4.4 Performance on Distant Supervision Relation Extraction

基于所提出的對抗性學(xué)習(xí)過程,我們獲得了一個能夠識別來自嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本的生成器。當(dāng)然,遠(yuǎn)程監(jiān)督關(guān)系提取的改進(jìn)可以為我們的發(fā)電機(jī)提供直觀的評估。我們采用3.3節(jié)中提到的策略來重新定位數(shù)據(jù)集。獲得此重新分配的數(shù)據(jù)集后,我們將其應(yīng)用于培訓(xùn)最新的最先進(jìn)模型,并觀察它是否為這些系統(tǒng)帶來了進(jìn)一步的改進(jìn)。曾等人。 (2015年)和林等人。 (2016)是解決遠(yuǎn)程監(jiān)管關(guān)系提取錯誤標(biāo)注問題的有力模型。根據(jù)圖5和圖6中顯示的比較,所有四個模型(CNN + ONE,CNN + ATT,PCNN + ONE和PCNN + ATT)實現(xiàn)了進(jìn)一步的改進(jìn)。

  • 使用DSGAN可以提升遠(yuǎn)程監(jiān)督關(guān)系抽取的效果比基本模型好


即使曾等人。 (2015年)和林等人。 (2016)旨在減輕假陽性樣本的影響,它們都只關(guān)注實體對的句子包中的噪聲過濾。曾等人。 (2015)將至少一個多實例學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,僅提取一個活動句子來表示目標(biāo)實體對;林等人。 (2016)將軟注意權(quán)重分配給一個實體對的所有句子的表示,然后使用這些表示的加權(quán)和來預(yù)測目標(biāo)實體對之間的關(guān)系。然而,根據(jù)我們對Riedel數(shù)據(jù)集的人工檢查(Riedel et al。,2010),我們發(fā)現(xiàn)另一個假陽性案例,即特定實體對的所有句子都是錯誤的;但是上述方法忽略了這種情況,而所提出的方法可以解決這個問題。我們的DSGAN流水線與實體對的關(guān)系預(yù)測無關(guān),因此我們可以采用我們的生成器作為真正的指標(biāo),在關(guān)系提取之前過濾嘈雜的遠(yuǎn)程監(jiān)管數(shù)據(jù)集,這解釋了圖5和圖6中這些進(jìn)一步改進(jìn)的起源。 。為了給出更直觀的比較,在表2中,我們給出了每條PR曲線的AUC值,它反映了這些曲線下的面積大小。較大的AUC值反映出更好的性能。而且,從t檢驗評估的結(jié)果可以看出,所有p值都小于5e-02,因此改進(jìn)是顯而易見的。

5.結(jié)論

遠(yuǎn)程監(jiān)督已成為關(guān)系提取的標(biāo)準(zhǔn)方法。然而,雖然它帶來了便利,但它也在遠(yuǎn)程標(biāo)記的句子中引入了噪音。在這項工作中,我們提出了第一個生成對抗性訓(xùn)練方法,用于魯棒的遠(yuǎn)程監(jiān)督關(guān)系提取。更具體地說,我們的框架有兩個組成部分:一個產(chǎn)生真陽性的生成器,一個試圖對正負(fù)數(shù)據(jù)樣本進(jìn)行分類的鑒別器。通過對抗訓(xùn)練,我們的目標(biāo)是逐漸降低鑒別器的性能,而發(fā)生器在達(dá)到平衡時提高預(yù)測真陽性的性能。我們的方法是模型不可知的,因此可以應(yīng)用于任何遠(yuǎn)程監(jiān)督模型。根據(jù)經(jīng)驗,我們證明了我們的方法可以顯著提高廣泛使用的紐約時間數(shù)據(jù)集上許多競爭基線的性能。

總結(jié)

以上是生活随笔為你收集整理的文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。