文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)
文章目錄
- Abstract
- 1.Introduction
- 2.相關(guān)工作
- 3 Adversarial Learning for Distant Supervision
- 3.1 Pre-Training Strategy
- 3.2 Generative Adversarial Training for Distant Supervision Relation Extraction
- 3.3 Cleaning Noisy Dataset with Generator
- 4.實驗
- 4.2 Training Process of DSGAN
- 4.3 Quality of Generator
- 4.4 Performance on Distant Supervision Relation Extraction
- 5.結(jié)論
Qin, P., et al. (2018). DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).
Abstract
遠(yuǎn)程監(jiān)督可以有效地標(biāo)記關(guān)系提取的數(shù)據(jù),但是受到噪聲標(biāo)記問題的困擾。最近的作品主要執(zhí)行軟袋級降噪策略,以找到句子包中相對較好的樣本,與在句子級別做出假陽性樣本的硬判決相比,這是次優(yōu)的。在本文中,我們介紹了一個名為DSGAN的對抗性學(xué)習(xí)框架,用于學(xué)習(xí)一個句子級的真正生成器。受Generative Adversarial Networks的啟發(fā),我們將生成器生成的正樣本視為負(fù)樣本來訓(xùn)練鑒別器。獲得最佳發(fā)生器,直到鑒別器的辨別能力下降最大。我們采用生成器來過濾遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)集,并將誤報實例重新分配到負(fù)集中,從而為關(guān)系分類提供清潔的數(shù)據(jù)集。實驗結(jié)果表明,與現(xiàn)有技術(shù)系統(tǒng)相比,該策略顯著提高了遠(yuǎn)程監(jiān)督關(guān)系提取的性能。
- 關(guān)系抽取
- 已知文本中實體,對句子中存在的實體對的關(guān)系進(jìn)行預(yù)測
- 遠(yuǎn)程監(jiān)督
- 使用句子包
- (h,r,t)三元組的句子分在一個包中
- 遠(yuǎn)程監(jiān)督存在噪音
- 以GAN來去除噪音,獲得噪音低的包
- 生成器:找到句子中好的樣本
- 判別器:將生成器產(chǎn)生的樣本視作負(fù)樣本來訓(xùn)練
1.Introduction
由于現(xiàn)實世界中存在大量事實,因此非常昂貴,并且人類注釋器幾乎不可能對訓(xùn)練數(shù)據(jù)集進(jìn)行注釋以滿足各行各業(yè)的需求。這個問題越來越受到關(guān)注。 Fewshot學(xué)習(xí)和零鏡頭學(xué)習(xí)(Xian et al。,2017)嘗試用很少的標(biāo)記數(shù)據(jù)預(yù)測看不見的類,甚至沒有標(biāo)記數(shù)據(jù)。不同的是,遠(yuǎn)程監(jiān)督(Mintz et al。,2009; Hoffmann et al。,2011; Surdeanu et al。,2012)是為了與遠(yuǎn)程監(jiān)督(DS)之間看不見的關(guān)系,從純文本中有效地生成關(guān)系數(shù)據(jù)。然而,它自然會帶來一些缺陷:由此產(chǎn)生的遠(yuǎn)程監(jiān)督訓(xùn)練樣本通常非常嘈雜(如圖1所示),這是阻礙性能的主要問題(Roth等,2013)。大多數(shù)當(dāng)前最先進(jìn)的方法(Zeng et al。,2015; Lin et al。,2016)在實體對的句子包中進(jìn)行去噪操作,并將此過程整合到遠(yuǎn)程監(jiān)管關(guān)系中。 。實際上,這些方法可以過濾大量的噪聲樣本;然而,他們忽略了一個實體對的所有句子都是假陽性的情況,這也是遠(yuǎn)程監(jiān)管數(shù)據(jù)集中的常見現(xiàn)象。在這種考慮下,一個獨立而準(zhǔn)確的句子級降噪策略是更好的選擇。
在本文中,我們設(shè)計了一個對抗性學(xué)習(xí)過程(Goodfellow等,2014; Radford等,2015),以獲得一個句子級生成器,它可以識別來自嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本,而無需任何監(jiān)督信息。在圖1中,假陽性樣本的存在使得DS決策邊界不是最理想的,因此阻礙了關(guān)系提取的性能。然而,就數(shù)量而言,真陽性樣本仍占據(jù)大部分比例;這是我們方法的先決條件。給定具有DS數(shù)據(jù)集決策邊界的鑒別器(圖1中的棕色決策邊界),生成器嘗試從DS正數(shù)據(jù)集生成真正的正樣本;然后,我們?yōu)樯傻臉颖痉峙湄?fù)標(biāo)簽,其余樣本分配正標(biāo)簽以挑戰(zhàn)鑒別器。在這種對抗性設(shè)置下,如果生成的樣本集包含更多真實的陽性樣本,并且剩余集合中剩余更多的假陽性樣本,則鑒別器的分類能力將下降得更快。根據(jù)經(jīng)驗,我們證明了我們的方法在各種基于深度神經(jīng)網(wǎng)絡(luò)的模型中帶來了一致的性能提升,在廣泛使用的紐約時報數(shù)據(jù)集上實現(xiàn)了強大的性能(Riedel等,2010)。我們的貢獻(xiàn)是三方面的:
- 標(biāo)注困難
- few-shot:通過少量標(biāo)注來預(yù)測不可見的類
- zero-shot:無標(biāo)注來預(yù)測不可見的類
- 遠(yuǎn)程監(jiān)督:
- 噪聲大
- 去噪
- 以前:在實體對的句子包中去噪
- 忽略了實體對的所有句子均是假陽性FP的可能
- 假陽性:預(yù)測為真,實際為假
- 在遠(yuǎn)程監(jiān)督中很常見
- 忽略了實體對的所有句子均是假陽性FP的可能
- 解決:獨立而準(zhǔn)確的句子級去噪
- 噪聲大
2.相關(guān)工作
為了解決上述數(shù)據(jù)稀疏性問題,Mintz等人。 (2009)首先通過遠(yuǎn)程監(jiān)督將未標(biāo)記的文本語料庫與Freebase對齊。然而,遠(yuǎn)程監(jiān)督不可避免地受到錯誤的標(biāo)簽問題的困擾。早期的工作不是明確地去除噪聲實例,而是打算抑制噪聲。Riedel等。 (2010)在關(guān)系抽取中采用多實例單標(biāo)簽學(xué)習(xí);霍夫曼等人。 (2011年)和Surdeanu等人。 (2012)模型遠(yuǎn)程監(jiān)督關(guān)系提取作為多實例多標(biāo)簽問題。
最近,已經(jīng)提出了一些基于深度學(xué)習(xí)的模型(Zeng等人,2014; Shen和Huang,2016)來解決關(guān)系提取問題。當(dāng)然,有些作品試圖通過深度學(xué)習(xí)技術(shù)來緩解錯誤的標(biāo)注問題,并將它們的去噪過程集成到關(guān)系提取中。曾等人。 (2015)選擇一個最合理的句子來表示實體對之間的關(guān)系,這不可避免地錯過了一些有價值的信息。林等人。 (2016)計算一個實體對的所有句子的一系列軟注意權(quán)重,不正確的句子可以減權(quán);基于同樣的想法,Ji等人。 (2017)將有用的實體信息帶入注意力量的計算中。然而,與這些軟注意權(quán)重分配策略相比,在關(guān)系提取之前識別來自遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本是更好的選擇。Takamatsu等。 (2012)基于從許多NLP工具中提取的語言特征構(gòu)建噪聲濾波策略,包括NER和依賴樹,這不可避免地會遇到錯誤傳播問題;而我們只是利用字嵌入作為輸入信息。在這項工作中,我們學(xué)習(xí)了一個真正的識別器(生成器),它獨立于實體對的關(guān)系預(yù)測,因此它可以直接應(yīng)用于任何現(xiàn)有的關(guān)系提取分類器之上。然后,我們將假陽性樣本重新分配到負(fù)集中,以便充分利用遠(yuǎn)程標(biāo)記的資源。
- 遠(yuǎn)程監(jiān)督
- Mintz et al. (2009) 提出:對齊
- 噪音
- 早期:抑制噪音
- Riedel et al. (2010) :多實例單標(biāo)簽學(xué)習(xí)
- Hoffmann et al. (2011) and Surdeanu et al. (2012) :多實例多標(biāo)簽
- 深度學(xué)習(xí):將深度學(xué)習(xí)去噪集成到關(guān)系抽取中
- Zeng et al. (2015) :句子包里挑一個
- 錯過了有價值的信息
- Lin et al. (2016):soft attention
- 給包中的句子加權(quán)
- Ji et al. (2017):attention中包含了實體信息
- Zeng et al. (2015) :句子包里挑一個
- 在關(guān)系抽取之前,分辨出真假樣本:
- Takamatsu et al. (2012) :噪聲濾波器
- 使用NER和依賴樹的語言特征
- 難以避免錯誤傳遞
- 本文:僅使用word embedding
- Takamatsu et al. (2012) :噪聲濾波器
- 早期:抑制噪音
3 Adversarial Learning for Distant Supervision
在本節(jié)中,我們將介紹一種對抗性學(xué)習(xí)流程,以獲得一個強大的生成器,該生成器可以在沒有任何監(jiān)督信息的情況下從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中自動發(fā)現(xiàn)真正的正樣本。我們的對抗性學(xué)習(xí)過程概述如圖2所示。給定一組遠(yuǎn)程標(biāo)記的句子,生成器試圖從中生成真正的正樣本;但是,這些生成的樣本被視為負(fù)樣本以訓(xùn)練鑒別器。因此,當(dāng)完成掃描DS陽性數(shù)據(jù)集一次時,生成器發(fā)現(xiàn)的真實陽性樣本越多,鑒別器獲得的性能就越明顯。在對抗訓(xùn)練之后,我們希望獲得一個強大的發(fā)生器,它能夠迫使鑒別器最大程度地喪失其分類能力。
在下一節(jié)中,我們描述了發(fā)生器和鑒別器之間的對抗性訓(xùn)練管道,包括訓(xùn)練前策略,目標(biāo)函數(shù)和梯度計算。由于生成器涉及離散采樣步驟,因此我們引入了一種策略梯度方法來計算發(fā)電機(jī)的梯度。
- DSGAN
- 目標(biāo):區(qū)分句子是不是好樣本
- 只對標(biāo)注為T的樣本做區(qū)分,將FP重新歸于負(fù)類
- 假設(shè):標(biāo)注為真的樣本,多數(shù)為TP
- 生成器:區(qū)分句子是TP還是FP,無需監(jiān)督
- 策略梯度:因為涉及離散采樣
- 輸入:word-embedding
- 判別器:
- 將生成器生成的樣本標(biāo)注為F
- 原來的樣本,標(biāo)注為T
- 訓(xùn)練判別器
- 如果生成集合中,TP多,而剩余集合中FP多,則鑒別器分類能力下降的很快
- 貢獻(xiàn)
- 我們是第一個考慮對抗性學(xué)習(xí)去噪遠(yuǎn)程監(jiān)督關(guān)系提取數(shù)據(jù)集的人。
- 我們的方法是句子級和模式診斷,因此它可以用作任何關(guān)系提取器(即插即用技術(shù))。
- 我們證明我們的方法可以在沒有任何監(jiān)督信息下生成一個干凈的數(shù)據(jù)集,從而提高最近提出的神經(jīng)關(guān)系提取器的性能。
- 目標(biāo):區(qū)分句子是不是好樣本
3.1 Pre-Training Strategy
- GANs:
- 預(yù)訓(xùn)練:生成器和判別器
- 必須
- 目標(biāo):得到更好的初始化參數(shù),容易收斂
- 判別器:遠(yuǎn)程監(jiān)督數(shù)據(jù)集的positive set P和negtive set NDN^DND
- 生成器:
- 預(yù)訓(xùn)練到精度達(dá)到90%
- 使用P和另一個negtive set NGN^GNG
- 讓生成器對P過擬合
- 目標(biāo):讓生成器在訓(xùn)練過程開始時錯誤地給出所有有噪聲的DS的陽性樣本高概率
- 之后會通過對抗學(xué)習(xí)降低FP的這個概率
- 目標(biāo):讓生成器在訓(xùn)練過程開始時錯誤地給出所有有噪聲的DS的陽性樣本高概率
- 預(yù)訓(xùn)練:生成器和判別器
3.2 Generative Adversarial Training for Distant Supervision Relation Extraction
DSGAN的生成器和鑒別器都由簡單的CNN建模,因為CNN在理解句子方面表現(xiàn)良好(Zeng et al。,2014),并且它具有比基于RNN的網(wǎng)絡(luò)更少的參數(shù)。對于關(guān)系提取,輸入信息由句子和實體對組成;因此,作為共同背景(Zeng et al。,2014; Nguyen and Grishman,2015),我們使用字嵌入和位置嵌入將輸入實例轉(zhuǎn)換為連續(xù)的實值向量。
- 網(wǎng)絡(luò)
- CNN:
- 參數(shù)比RNN少
- 語言理解能力強
- 輸入:句子+實體對
- 使用:word embedding + position embedding
- CNN:
- 生成器
- 與計算機(jī)視覺的區(qū)別
- 不用生成全新的句子(圖),只需要從集合中判別出TP即可
- 是“從概率分布中抽樣 ”的離散的GANs
- 與計算機(jī)視覺的區(qū)別
- 句子sjs_jsj?是TP的概率
- 生成器:PG(sj)P_G(s_j)PG?(sj?)
- 判別器:PD(sj)P_D(s_j)PD?(sj?)
- 1個epoch掃描一次P
- 更有效的訓(xùn)練+更多反饋
- P–>劃分成N個batch
- 處理完一個batch,更新一次參數(shù)θG,θD\theta_G,\theta_DθG?,θD?
- 目標(biāo)函數(shù)
- 生成器
- 對一個batchBiB_iBi?,生成器得到他的概率分布{PG(sj)}j=1,...,∣Bi∣\{P_G(s_j)\}_{j=1,...,|B_i|}{PG?(sj?)}j=1,...,∣Bi?∣?
- 依據(jù)這個概率分布采樣,得到集合T
- T={sj},sjPG(sj),j=1,2,...,∣Bi∣T=\{s_j\},s_j~P_G(s_j),j=1,2,...,|B_i|T={sj?},sj??PG?(sj?),j=1,2,...,∣Bi?∣–對G而言是正樣本
- PG(sj)P_G(s_j)PG?(sj?)大的,是生成器視為正例的句子,但對判別器而言是負(fù)例
- 為了挑戰(zhàn)判別器,損失函數(shù)(最大化):LG=Σsj∈TlogpD(sj)L_G=\Sigma_{s_j\in T}logp_D(s_j)LG?=Σsj?∈T?logpD?(sj?)
- LG=Σsj∈TlogpG(sj)L_G=\Sigma_{s_j\in T}logp_G(s_j)LG?=Σsj?∈T?logpG?(sj?)–感覺應(yīng)該是G,原文是D
- 判別器:
- 樣本:
- T:對D而言是負(fù)樣本
- F=Bi?TF=B_i-TF=Bi??T:正樣本
- 損失:
- 與二分類相同
- LD=?(Σsj∈(Bi?T)logpD(sj)+Σsj∈Tlog(1?pD(sj)))L_D=-(\Sigma_{s_j\in(B_i-T)}log p_D(s_j)+\Sigma_{s_j\in T}log(1-p_D(s_j)))LD?=?(Σsj?∈(Bi??T)?logpD?(sj?)+Σsj?∈T?log(1?pD?(sj?)))(最小化)
- 可以用任何梯度的方法優(yōu)化
- epoch:
- 與先前工作中的鑒別器的常見設(shè)置不同,
- 我們的鑒別器在每個epoch開始時加載相同的預(yù)訓(xùn)練參數(shù)集
- 原因1:想要的是強大的生成器而不是判別器
- 原因2:生成器只采樣,不生成全新的數(shù)據(jù)
- 所以,判別器相對容易崩潰
- 假設(shè):一個判別器在一個epoch內(nèi)具有最大的性能下降時,就會產(chǎn)生最穩(wěn)定的生成器
- 樣本:
- 為保證前提條件相同,每個epoch的B相同(batch劃分相同)
- 生成器
- 優(yōu)化
- 生成器:
- 目標(biāo):從參數(shù)化概率分布中最大化樣本的給定函數(shù)的期望。(類似一步強化學(xué)習(xí))
- 訓(xùn)練:策略梯度策略
- 類比到強化學(xué)習(xí)中
- sjs_jsj?:狀態(tài)
- PG(sj)P_G(s_j)PG?(sj?):策略
- 獎勵:(兩個角度來定義)
- 從對抗訓(xùn)練角度,希望判別器判別生成器生成的為1(但對判別器來說,標(biāo)注為0)
- r1=1∣T∣Σsj∈TpD(sj)?b1r_1=\frac{1}{|T|}\Sigma_{s_j\in T}p_D(s_j)-b_1r1?=∣T∣1?Σsj?∈T?pD?(sj?)?b1?,b1:可以減小方差
- 來自NDN^DND的預(yù)測概率的平均值
- p~=1∣ND∣Σsj∈NDpD(sj)\tilde{p}=\frac{1}{|N^D|}\Sigma_{s_j\in N^D}p_D(s_j)p~?=∣ND∣1?Σsj?∈ND?pD?(sj?)
- NDN^DND:參與判別器的預(yù)訓(xùn)練過程,但不參與對抗訓(xùn)練過程
- 當(dāng)判別器的分類能力降低,NDN^DND判別為0的準(zhǔn)確率逐漸下降–>p~\tilde{p}p~?增加了–>生成器更好
- r2=η(p~ik?b2),b2=maxp~im,m=1,...,k?1r_2=\eta(\tilde{p}_i^k-b_2),b_2=max{\tilde{p}_i^m},m=1,...,k-1r2?=η(p~?ik??b2?),b2?=maxp~?im?,m=1,...,k?1
- 從對抗訓(xùn)練角度,希望判別器判別生成器生成的為1(但對判別器來說,標(biāo)注為0)
- 梯度:?θDLG=Σsj∈BiEsj?pG(sj)r?θGlogpG(sj)=1∣T∣Σsj∈Tr?θGlogpG(sj)\nabla_{\theta_D}L_G\\=\Sigma_{s_j\in B_i}E_{s_j-p_G(s_j)}r\nabla_{\theta_G}log p_G(s_j)\\=\frac{1}{|T|}\Sigma_{s_j\in T}r\nabla_{\theta_G}log p_G(s_j)?θD??LG?=Σsj?∈Bi??Esj??pG?(sj?)?r?θG??logpG?(sj?)=∣T∣1?Σsj?∈T?r?θG??logpG?(sj?)
- 類比到強化學(xué)習(xí)中
- 生成器:
3.3 Cleaning Noisy Dataset with Generator
- 上面訓(xùn)練得到的生成器–當(dāng)做二分類器
- 過濾噪聲樣本
- 為了達(dá)到數(shù)據(jù)的最大利用率:
- 實體對的句子包中所有句子均被認(rèn)定為FP,則該實體對將被分配到負(fù)集中
- 這樣,遠(yuǎn)程監(jiān)督訓(xùn)練集的規(guī)模不變
- (??負(fù)集啥意思,認(rèn)為他倆沒關(guān)系?)
在我們的對抗學(xué)習(xí)過程之后,我們獲得一個關(guān)系類型的生成器;這些生成器具有為相應(yīng)的關(guān)系類型生成真陽性樣本的能力。因此,我們可以采用發(fā)生器來過濾來自遠(yuǎn)程監(jiān)控數(shù)據(jù)集的噪聲樣本。簡單而明確地,我們將發(fā)電機(jī)用作二元分類器。為了達(dá)到數(shù)據(jù)的最大利用率,我們制定了一個策略:對于具有一組帶注釋的句子的實體對,如果所有這些句子被我們的生成器確定為假陰性,則該實體對將被重新分配到負(fù)集中。在這一戰(zhàn)略下,遠(yuǎn)程監(jiān)督訓(xùn)練集的規(guī)模保持不變。
4.實驗
本文提出了一種對抗性學(xué)習(xí)策略,用于從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中檢測真實的陽性樣本。由于缺乏有監(jiān)督的信息,我們定義了一個發(fā)生器,通過與鑒別器競爭來啟發(fā)式學(xué)習(xí)識別真正的陽性樣本。因此,我們的實驗旨在證明我們的DSGAN方法具有此功能。為此,我們首先簡要介紹數(shù)據(jù)集和評估指標(biāo)。從經(jīng)驗上講,對抗性學(xué)習(xí)過程在某種程度上具有不穩(wěn)定性;因此,我們接下來說明我們的對抗訓(xùn)練過程的趨同。最后,我們從兩個角度證明了我們的發(fā)電機(jī)的效率:生成的樣本的質(zhì)量和廣泛使用的遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù)的性能。
- 實驗?zāi)繕?biāo):
- 證明我們的DSGAN方法具有此功能(區(qū)分FP和TP)
- 證明我們的對抗訓(xùn)練收斂了
- 效率好
- 生成樣本的質(zhì)量
- 對遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù)性能的提升
- 數(shù)據(jù)集
- Reidel dataset(Riedel et al。,2010)
- Freebase的三元組+NYT的句子
- 測試:held-out evaluation
- 它構(gòu)建了一個測試集,其中實體對也從Freebase中提取。
- 同樣,從測試文章中發(fā)現(xiàn)的關(guān)系事實會自動與Freebase中的關(guān)聯(lián)事實進(jìn)行比較
- Reidel dataset(Riedel et al。,2010)
- word embedding:word embedding matrix by Lin et al. (2016)
- position embedding:最大距離-30和30
- CNN:簡單的cnn
- 超參數(shù)
由于缺少相應(yīng)的標(biāo)記數(shù)據(jù)集,因此沒有地面實況測試數(shù)據(jù)集來評估遠(yuǎn)程監(jiān)督關(guān)系提取系統(tǒng)的性能。在這種情況下,以前的工作采用保持評估來評估他們的系統(tǒng),這可以提供精確的近似測量,而不需要昂貴的人工評估。它構(gòu)建了一個測試集,其中實體對也從Freebase中提取。同樣,從測試文章中發(fā)現(xiàn)的關(guān)系事實會自動與Freebase中的關(guān)聯(lián)事實進(jìn)行比較。
4.2 Training Process of DSGAN
由于對抗性學(xué)習(xí)被廣泛認(rèn)為是一種有效但不穩(wěn)定的技術(shù),因此我們在這里說明了培訓(xùn)過程中的一些屬性變化,以此表明我們提出的方法的學(xué)習(xí)趨勢。我們使用3種關(guān)系類型作為例子:/ business / person / company,/ people / person / place living和/ location / neighborhood / neighborhood of。因為它們來自Reidel數(shù)據(jù)集的三個主要類別(商務(wù),人員,位置),并且它們都具有足夠的遠(yuǎn)程監(jiān)督實例。圖3中的第一行顯示了訓(xùn)練期間鑒別器的分類能力變化。
- 本文對抗訓(xùn)練的收斂性
- 對抗訓(xùn)練過程中判別器在NDN^DND上精度下降(不用NDN^DND進(jìn)行對抗訓(xùn)練了)
- 每個epoch從同一起點開始
精度由負(fù)set4NDN^DND 計算得出。在對抗性學(xué)習(xí)開始時,鑒別器在NDN^DND上表現(xiàn)良好;此外,在對抗訓(xùn)練期間不使用NDN^DND。因此,NDN^DND的準(zhǔn)確度是反映鑒別器性能的標(biāo)準(zhǔn)。在早期時期,來自發(fā)生器的生成樣本提高了準(zhǔn)確性,因為它沒有挑戰(zhàn)鑒別器的能力;然而,隨著訓(xùn)練時期的增加,這種準(zhǔn)確性逐漸降低,這意味著鑒別器變得更弱。這是因為發(fā)電機(jī)逐漸學(xué)會在每個袋子中產(chǎn)生更準(zhǔn)確的真陽性樣品。在提議的對抗性學(xué)習(xí)過程之后,發(fā)生器足夠強大以使鑒別器崩潰。圖4給出了更準(zhǔn)確的趨勢顯示趨勢。請注意,每個呈現(xiàn)的關(guān)系類型都存在準(zhǔn)確性下降的臨界點。這是因為我們給發(fā)生器挑戰(zhàn)鑒別器的機(jī)會只是一次掃描噪聲數(shù)據(jù)集;當(dāng)發(fā)電機(jī)已經(jīng)足夠穩(wěn)健時,就會產(chǎn)生這個臨界點。因此,當(dāng)模型達(dá)到臨界點時,我們會停止訓(xùn)練過程。總之,我們的發(fā)電機(jī)的能力可以穩(wěn)步增加,這表明DSGAN是一種強大的對抗性學(xué)習(xí)策略。
4.3 Quality of Generator
- 圖三可見:
- 訓(xùn)練得快,容易收斂,擬合度高–>則數(shù)據(jù)質(zhì)量好
- 隨機(jī)選擇的正集<用預(yù)訓(xùn)練的生成器選擇的<DSGAN選擇的正集
- 與訓(xùn)練的生成器無法提供FP和TP之間的界限
由于缺乏監(jiān)督信息,我們從另一個角度驗證發(fā)電機(jī)的質(zhì)量。結(jié)合圖1,對于一種關(guān)系類型,真陽性樣本必須具有明顯更高的相關(guān)性(紫色圓圈簇)。因此,具有更多真陽性樣本的陽性集更容易訓(xùn)練;換句話說,收斂速度更快,訓(xùn)練集的擬合度更高。基于此,我們在圖3的第二行中給出了比較測試。我們從嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集P構(gòu)建三個正數(shù)據(jù)集:隨機(jī)選擇的正集,正集基于預(yù)訓(xùn)練的發(fā)生器,正集基于DSGAN發(fā)生器。對于預(yù)訓(xùn)練的發(fā)生器,根據(jù)從高到低為正的概率選擇正組。這三組具有相同的尺寸并伴有相同的負(fù)集。顯然,DSGAN發(fā)生器的正設(shè)置產(chǎn)生了最佳性能,這表明我們的對抗性學(xué)習(xí)過程能夠產(chǎn)生強大的真正正發(fā)生器。此外,預(yù)訓(xùn)練的發(fā)電機(jī)也具有良好的性能;然而,與DSGAN發(fā)生器相比,它不能提供誤報和真陽性之間的界限。
4.4 Performance on Distant Supervision Relation Extraction
基于所提出的對抗性學(xué)習(xí)過程,我們獲得了一個能夠識別來自嘈雜的遠(yuǎn)程監(jiān)督數(shù)據(jù)集的真實陽性樣本的生成器。當(dāng)然,遠(yuǎn)程監(jiān)督關(guān)系提取的改進(jìn)可以為我們的發(fā)電機(jī)提供直觀的評估。我們采用3.3節(jié)中提到的策略來重新定位數(shù)據(jù)集。獲得此重新分配的數(shù)據(jù)集后,我們將其應(yīng)用于培訓(xùn)最新的最先進(jìn)模型,并觀察它是否為這些系統(tǒng)帶來了進(jìn)一步的改進(jìn)。曾等人。 (2015年)和林等人。 (2016)是解決遠(yuǎn)程監(jiān)管關(guān)系提取錯誤標(biāo)注問題的有力模型。根據(jù)圖5和圖6中顯示的比較,所有四個模型(CNN + ONE,CNN + ATT,PCNN + ONE和PCNN + ATT)實現(xiàn)了進(jìn)一步的改進(jìn)。
- 使用DSGAN可以提升遠(yuǎn)程監(jiān)督關(guān)系抽取的效果比基本模型好
即使曾等人。 (2015年)和林等人。 (2016)旨在減輕假陽性樣本的影響,它們都只關(guān)注實體對的句子包中的噪聲過濾。曾等人。 (2015)將至少一個多實例學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,僅提取一個活動句子來表示目標(biāo)實體對;林等人。 (2016)將軟注意權(quán)重分配給一個實體對的所有句子的表示,然后使用這些表示的加權(quán)和來預(yù)測目標(biāo)實體對之間的關(guān)系。然而,根據(jù)我們對Riedel數(shù)據(jù)集的人工檢查(Riedel et al。,2010),我們發(fā)現(xiàn)另一個假陽性案例,即特定實體對的所有句子都是錯誤的;但是上述方法忽略了這種情況,而所提出的方法可以解決這個問題。我們的DSGAN流水線與實體對的關(guān)系預(yù)測無關(guān),因此我們可以采用我們的生成器作為真正的指標(biāo),在關(guān)系提取之前過濾嘈雜的遠(yuǎn)程監(jiān)管數(shù)據(jù)集,這解釋了圖5和圖6中這些進(jìn)一步改進(jìn)的起源。 。為了給出更直觀的比較,在表2中,我們給出了每條PR曲線的AUC值,它反映了這些曲線下的面積大小。較大的AUC值反映出更好的性能。而且,從t檢驗評估的結(jié)果可以看出,所有p值都小于5e-02,因此改進(jìn)是顯而易見的。
5.結(jié)論
遠(yuǎn)程監(jiān)督已成為關(guān)系提取的標(biāo)準(zhǔn)方法。然而,雖然它帶來了便利,但它也在遠(yuǎn)程標(biāo)記的句子中引入了噪音。在這項工作中,我們提出了第一個生成對抗性訓(xùn)練方法,用于魯棒的遠(yuǎn)程監(jiān)督關(guān)系提取。更具體地說,我們的框架有兩個組成部分:一個產(chǎn)生真陽性的生成器,一個試圖對正負(fù)數(shù)據(jù)樣本進(jìn)行分類的鑒別器。通過對抗訓(xùn)練,我們的目標(biāo)是逐漸降低鑒別器的性能,而發(fā)生器在達(dá)到平衡時提高預(yù)測真陽性的性能。我們的方法是模型不可知的,因此可以應(yīng)用于任何遠(yuǎn)程監(jiān)督模型。根據(jù)經(jīng)驗,我們證明了我們的方法可以顯著提高廣泛使用的紐約時間數(shù)據(jù)集上許多競爭基線的性能。
總結(jié)
以上是生活随笔為你收集整理的文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spring+SpringMVC+Myb
- 下一篇: 2021-10-28嵌入式人工智能