當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

發(fā)布時(shí)間：2024/10/8 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在碎片化閱讀充斥眼球的時(shí)代，越來越少的人會去關(guān)注每篇論文背后的探索和思考。

在這個(gè)欄目里，你會快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn)，時(shí)刻緊跟 AI 前沿成果。

點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū)，查看更多最新論文推薦。

這是 PaperDaily 的第?122?篇文章

作者丨盧靖宇

學(xué)校丨西安電子科技大學(xué)碩士

研究方向丨自然語言處理

目前遠(yuǎn)程監(jiān)督技術(shù)已經(jīng)成為了關(guān)系抽取的標(biāo)準(zhǔn)配備之一。盡管該方法很有效，但它并不是無代價(jià)的——其獲取的訓(xùn)練樣本中總是存在噪聲。針對這一問題，本文設(shè)計(jì)了一個(gè)深度強(qiáng)化學(xué)習(xí)框架，用于移除原始訓(xùn)練集中的假陽性實(shí)例，并重建一個(gè)純凈的訓(xùn)練（測試）數(shù)據(jù)集，以提高關(guān)系分類的精度。

論文主要創(chuàng)新有以下三點(diǎn)：

1. 為提高遠(yuǎn)程監(jiān)督關(guān)系抽取的魯棒性，設(shè)計(jì)了一個(gè)新的深度強(qiáng)化學(xué)習(xí)框架；

2. 該算法獨(dú)立于關(guān)系抽取模型的，是一種即插即用的技術(shù)，可應(yīng)用于任何一個(gè)現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取模型；

3. 文章通過實(shí)驗(yàn)證明了該方法可以提升目前最新提出的關(guān)系抽取模型的性能。

論文動機(jī)

本文是北京郵電大學(xué)和加利福尼亞大學(xué) Santa Barbara 分校發(fā)表在 ACL 2018?上的工作，論文嘗試使用一種深度強(qiáng)化學(xué)習(xí)框架來生成一個(gè)假正例指示器，該框架在沒有任何監(jiān)督信息的情況下自動識別每個(gè)關(guān)系類型實(shí)例集中的假正例實(shí)例。

與以往研究成果中直接移除假正例的操作不同，該策略則將這些假正例重新分配至相應(yīng)關(guān)系類型的負(fù)例實(shí)例集中。文章在實(shí)驗(yàn)中，將使用該框架的模型的性能同當(dāng)前最先進(jìn)的幾種模型進(jìn)行了對比。結(jié)果顯示，文章提出的框架能給遠(yuǎn)程監(jiān)督關(guān)系抽取模型帶來明顯的性能提升。

問題引入

關(guān)系抽取是知識圖譜構(gòu)建的關(guān)鍵模塊之一，同時(shí)它也是許多自然語言處理應(yīng)用的重要組成部分，諸如情感分析、問答系統(tǒng)和自動摘要等。其核心任務(wù)是預(yù)測句子中實(shí)體間的關(guān)系。例如，給定一個(gè)句子“Barack Obama is married to Michelle Obama.”，關(guān)系抽取的任務(wù)即預(yù)測出句中兩個(gè)實(shí)體間的關(guān)系為“配偶”關(guān)系。?

關(guān)系抽取算法最為突出的特點(diǎn)之一是對標(biāo)注實(shí)例存在著數(shù)量上的巨大需求，這一任務(wù)對于手工標(biāo)注幾乎是不可能完成的。在此背景下，遠(yuǎn)程監(jiān)督關(guān)系抽取算法應(yīng)運(yùn)而生。但該技術(shù)并不是完美無缺——遠(yuǎn)程監(jiān)督數(shù)據(jù)集始終無法擺脫噪聲數(shù)據(jù)的影響。

為了抑制噪聲，人們嘗試?yán)米⒁饬C(jī)制對含有噪聲的句子集合賦予權(quán)重以選擇出有效的訓(xùn)練樣本。但是，文章認(rèn)為這種只選擇出一個(gè)最佳樣本的思路并不是最優(yōu)的策略。為了提高模型的魯棒性，對于假正例不應(yīng)只是簡單的移除，而是應(yīng)把它們放在正確的位置——負(fù)例集合中。

遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)

文章提出一種基于強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）策略的框架，嘗試識別出數(shù)據(jù)集中的假正例，如下圖所示。

▲?本文提出的框架

與之前未充分利用遠(yuǎn)程監(jiān)督樣本的算法相比，該策略利用 RL agent 來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取。這里 agent 的目標(biāo)是根據(jù)關(guān)系分類器性能的變化，決定是保留還是移除當(dāng)前的實(shí)例（即一個(gè)句子）。然后，框架進(jìn)一步使基于深度強(qiáng)化學(xué)習(xí)策略的 agent 學(xué)會如何重建一個(gè)純凈的遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)集。

對于強(qiáng)化學(xué)習(xí)（RL），其擁有的兩個(gè)必備組件分別是：外部環(huán)境（external environment）和 RL agent，而一個(gè)具有良好魯棒性的 agent 正是通過這兩個(gè)組件的動態(tài)交互而訓(xùn)練出來的。

文章提出的 RL 方法各基本組成部分描述如下：

狀態(tài)（States）：為了滿足馬爾可夫決策過程（Markov decision process，MDP）的條件，狀態(tài) s 同時(shí)包含當(dāng)前句子和早期狀態(tài)中移除的句子的信息。句子的語義和句法信息由一個(gè)連續(xù)實(shí)值向量表示。

文章參考一些性能較好的監(jiān)督關(guān)系抽取算法，同時(shí)使用詞嵌入和位置嵌入以將句子轉(zhuǎn)換為向量。有了這些句子向量，可以將當(dāng)前句子向量與早期狀態(tài)中移除句子的平均向量級聯(lián)起來，用以表示當(dāng)前狀態(tài)。對于當(dāng)前句子的向量，給予相對較大的權(quán)重，以增大當(dāng)前句子信息對決策行為的支配性影響。?

行為（Actions）：在每一步中，agent 都會去判定實(shí)例對于目標(biāo)關(guān)系類型是否為假陽性。每一個(gè)關(guān)系類型都擁有一個(gè) agent，每個(gè) agent 都有兩個(gè)行為：對于當(dāng)前實(shí)例，作出是刪除或是保留的決定。

由于初始的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中包含有被錯誤標(biāo)注的實(shí)例，期望 agent 能利用策略網(wǎng)絡(luò)過濾掉這些噪聲實(shí)例，由此得到的純凈數(shù)據(jù)集，以使遠(yuǎn)程監(jiān)督獲得更好的性能。?

獎勵（Rewards）：如前所述，對于文章提出的模型可簡單的理解為：當(dāng)錯誤標(biāo)注數(shù)據(jù)被過濾掉后，關(guān)系分類器便能獲得更好的性能。因此，文章中的模型采用結(jié)果驅(qū)動策略，以性能變化為依據(jù)，對 agent 的一系列行為決策進(jìn)行獎勵。獎勵通過相鄰 epochs 的差值來表示：

如上式所示，在第 i 步時(shí)，F1 增加，則 agent 將收到一個(gè)正獎勵；反之，則 agent 將收到一個(gè)負(fù)獎勵。通過這樣的設(shè)置，獎勵值將與 F1 的差值成比例，α 的作用是將 F1 的差值轉(zhuǎn)換到有理數(shù)的范圍內(nèi)。為了消除 F1 的隨機(jī)性，文章使用最近 5 個(gè) epochs 的 F1 值的平均值來計(jì)算獎勵。?

策略網(wǎng)絡(luò)（Policy Network）：對于每個(gè)輸入的句子，策略網(wǎng)絡(luò)負(fù)責(zé)判斷該句子是否表述了目標(biāo)關(guān)系類型，然后對于與目標(biāo)關(guān)系類型無關(guān)的句子啟動移除操作。這樣，多元分類器就轉(zhuǎn)換為了二元分類器。文章使用一個(gè)窗口大小為、kernel size 為的 CNN 來對策略網(wǎng)絡(luò) π(s;θ) 建模。

基于深度強(qiáng)化學(xué)習(xí)策略的agent訓(xùn)練

與遠(yuǎn)程監(jiān)督關(guān)系抽取的目標(biāo)不同，這里的 agent 只判斷標(biāo)注的句子是否表述目標(biāo)關(guān)系類型，而并不對實(shí)體間的關(guān)系進(jìn)行預(yù)測。

預(yù)訓(xùn)練策略

這里的預(yù)訓(xùn)練策略，是受到了 AlphaGo 的啟發(fā)，是 RL 中加快 agent 訓(xùn)練的一種常見策略。對于某一具體的關(guān)系類型，直接將遠(yuǎn)程監(jiān)督正例集合作為正例集合，同時(shí)隨機(jī)選取遠(yuǎn)程監(jiān)督負(fù)例集合的一部分作為負(fù)例集合。

為了在預(yù)訓(xùn)練過程中能更好的考慮初始信息，負(fù)實(shí)例的數(shù)量是正實(shí)例數(shù)量的 10 倍。這是因?yàn)?#xff0c;通過學(xué)習(xí)大量負(fù)例樣本，agent 更有可能朝著更好的方向發(fā)展。文章利用交叉熵代價(jià)函數(shù)來訓(xùn)練這一二元分類器，其中，負(fù)標(biāo)簽對應(yīng)于刪除行為，正標(biāo)簽對應(yīng)于保留行為。

基于獎勵的agent再訓(xùn)練

如上圖所示，為了能夠識別出噪聲實(shí)例，這里引入一種基于 RL 策略的算法，其中的 agent 主要用于過濾出遠(yuǎn)程監(jiān)督正例集合中的噪聲樣本。

首先，將該集合分解為訓(xùn)練正例集合和驗(yàn)證正例集合，這兩個(gè)集合中都會包含有噪聲。相應(yīng)地，訓(xùn)練負(fù)例集合和驗(yàn)證負(fù)例集合是通過從遠(yuǎn)程監(jiān)督負(fù)例集合中隨機(jī)抽取獲得。

在每一個(gè)epoch中，通過隨機(jī)策略 π(a|s) 從中過濾出噪聲樣本集合，進(jìn)而獲得新的正例集合。由于是被識別出的錯誤標(biāo)注實(shí)例，因而將其補(bǔ)充進(jìn)負(fù)例集合。

此時(shí)，每一個(gè)epoch中，訓(xùn)練集的規(guī)模是恒定的。之后，使用純凈數(shù)據(jù)集來訓(xùn)練關(guān)系分類器。預(yù)期的情況是，通過 RL agent 轉(zhuǎn)移假正例，以提升關(guān)系分類器的性能。

為此，利用驗(yàn)證集合來測試當(dāng)前 agent 的性能。首先，利用當(dāng)前agent對驗(yàn)證集中的噪聲實(shí)例進(jìn)行識別和轉(zhuǎn)移，獲得；然后：利用該集合計(jì)算當(dāng)前關(guān)系分類器的F1得分。最后，通過計(jì)算當(dāng)前和上一 epoch 的 F1 得分的差值以獲得獎勵值。

在上述訓(xùn)練過程中，為避免 agent 將正例集合中的真正例誤刪，在每一個(gè) epoch 中，對 RL agent 移除句子的數(shù)目設(shè)置一個(gè)閾值，即一個(gè) epoch 中移除的句子數(shù)目不能超過該值。這樣，如果 agent 決定移除當(dāng)前實(shí)例，則其他實(shí)例被移除的概率將變小。?

經(jīng)過上面的強(qiáng)化學(xué)習(xí)過程，對于每一種關(guān)系類型，都得到了一個(gè)可作為假正例指示器的 agent，利用這些 agent 來識別出遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的假正例。

實(shí)驗(yàn)

數(shù)據(jù)集

文章使用的數(shù)據(jù)集是通過將從 Freebase 中獲取的實(shí)體對與紐約時(shí)報(bào)（NYT）語料庫對齊而得到的。該數(shù)據(jù)集中包含 52 種事實(shí)關(guān)系，以及 1 種特殊關(guān)系 NA（表示頭部實(shí)體和尾部實(shí)體間不存在任何關(guān)系）。

實(shí)驗(yàn)設(shè)置?

基于深度強(qiáng)化學(xué)習(xí)策略的agent

文章提出的 RL agent 僅包括保留和移除兩個(gè)行為。因而，可以將 agent 建模為一個(gè)二元分類器。使用一個(gè)單窗口 CNN 作為策略網(wǎng)絡(luò)。其超參數(shù)的具體設(shè)置如下表所示。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)速率設(shè)置為。

獎勵計(jì)算

由于簡單網(wǎng)絡(luò)對訓(xùn)練集的質(zhì)量更為敏感，因而這里使用一個(gè)簡單的 CNN 模型來評估 agent 的一系列行為。將與之比和與均設(shè)置為 2:1。

強(qiáng)化學(xué)習(xí)的有效性

下表列出了采用 RL 算法的模型與未采用 RL 算法模型的 F1 得分。表中，/peo/per/pob 表示 /people/person/place of birth。

首先，與 Original case 相比，Pretrain agent 取得了明顯的進(jìn)步：它不僅證明了預(yù)訓(xùn)練策略的合理性。更說明，經(jīng)過基于 RL 策略的算法的再訓(xùn)練之后，F1 得分有了進(jìn)一步的提升。上述比較說明，本文基于 RL 策略的算法能夠使 agent 朝著正確的方向進(jìn)化。

假陽性樣本的影響

下面兩張圖說明，在 RL agent 的幫助下，同樣的模型，分別使用純凈數(shù)據(jù)集和原始數(shù)據(jù)集進(jìn)行訓(xùn)練，前者的性能要明顯好于后者。

▲?基于CNN的模型的PR曲線

▲?基于PCNN的模型的PR曲線

案例研究

下面這張表顯示的是 agent 選出的部分假正例樣本示例。以實(shí)體對（Sami Moubayed, Syria）為例，很明顯，對于關(guān)系 /people/person/place of birth，圖中的語料沒有提供任何相對應(yīng)的信息。兩句話都是在談?wù)撜畏治鰩?Sami Moubayed 發(fā)表的對于 Syria 形勢的分析，其內(nèi)容與關(guān)系 /people/person/place of birth 毫無關(guān)聯(lián)。

▲?部分假正例樣本的示例

總結(jié)

這篇文章提出了一種深度強(qiáng)化學(xué)習(xí)框架，可以有效降低遠(yuǎn)程監(jiān)督數(shù)據(jù)集中噪聲樣本對關(guān)系分類器性能的影響。之前提出的各種算法，大多把注意力集中在選擇一個(gè)最好的句子。

然而，這些方法并不是最優(yōu)的，數(shù)據(jù)噪聲問題仍是影響性能的重要因素。與這些算法相比，這篇文章提出的算法通過訓(xùn)練一個(gè) RL agent，來實(shí)現(xiàn)對假正例的識別和移動，通過構(gòu)建純凈的數(shù)據(jù)集來提升關(guān)系分類器的性能。

文章在 NYT 這一被廣泛使用的語料庫上，對算法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，該深度強(qiáng)化學(xué)習(xí)框架與其他深度學(xué)習(xí)模型相比，在更大程度上提高了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能。

本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦，社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向，點(diǎn)擊「閱讀原文」即刻加入社區(qū)！

點(diǎn)擊標(biāo)題查看往期內(nèi)容推薦：?

自動機(jī)器學(xué)習(xí)（AutoML）最新綜述
自然語言處理中的語言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度解讀DeepMind新作：史上最強(qiáng)GAN圖像生成器
兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量
本周有哪些值得讀的AI論文？進(jìn)來告訴你答案
TensorSpace：超酷炫3D神經(jīng)網(wǎng)絡(luò)可視化框架
NIPS 2018：基于條件對抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)方法
NIPS 2018：可自適應(yīng)于不同環(huán)境的強(qiáng)化學(xué)習(xí)方法

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？?答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識真正流動起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： NeurIPS 2018 | 腾讯AI
下一篇：论文多到读不完？不如看看我们为你精选的这

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

論文動機(jī)

問題引入

遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)

基于深度強(qiáng)化學(xué)習(xí)策略的agent訓(xùn)練

實(shí)驗(yàn)

總結(jié)

總結(jié)