ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?122?篇文章作者丨盧靖宇
學(xué)校丨西安電子科技大學(xué)碩士
研究方向丨自然語言處理
目前遠(yuǎn)程監(jiān)督技術(shù)已經(jīng)成為了關(guān)系抽取的標(biāo)準(zhǔn)配備之一。盡管該方法很有效,但它并不是無代價(jià)的——其獲取的訓(xùn)練樣本中總是存在噪聲。針對這一問題,本文設(shè)計(jì)了一個(gè)深度強(qiáng)化學(xué)習(xí)框架,用于移除原始訓(xùn)練集中的假陽性實(shí)例,并重建一個(gè)純凈的訓(xùn)練(測試)數(shù)據(jù)集,以提高關(guān)系分類的精度。
論文主要創(chuàng)新有以下三點(diǎn):
1. 為提高遠(yuǎn)程監(jiān)督關(guān)系抽取的魯棒性,設(shè)計(jì)了一個(gè)新的深度強(qiáng)化學(xué)習(xí)框架;
2. 該算法獨(dú)立于關(guān)系抽取模型的,是一種即插即用的技術(shù),可應(yīng)用于任何一個(gè)現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取模型;
3. 文章通過實(shí)驗(yàn)證明了該方法可以提升目前最新提出的關(guān)系抽取模型的性能。
論文動機(jī)
本文是北京郵電大學(xué)和加利福尼亞大學(xué) Santa Barbara 分校發(fā)表在 ACL 2018?上的工作,論文嘗試使用一種深度強(qiáng)化學(xué)習(xí)框架來生成一個(gè)假正例指示器,該框架在沒有任何監(jiān)督信息的情況下自動識別每個(gè)關(guān)系類型實(shí)例集中的假正例實(shí)例。
與以往研究成果中直接移除假正例的操作不同,該策略則將這些假正例重新分配至相應(yīng)關(guān)系類型的負(fù)例實(shí)例集中。文章在實(shí)驗(yàn)中,將使用該框架的模型的性能同當(dāng)前最先進(jìn)的幾種模型進(jìn)行了對比。結(jié)果顯示,文章提出的框架能給遠(yuǎn)程監(jiān)督關(guān)系抽取模型帶來明顯的性能提升。
問題引入
關(guān)系抽取是知識圖譜構(gòu)建的關(guān)鍵模塊之一,同時(shí)它也是許多自然語言處理應(yīng)用的重要組成部分,諸如情感分析、問答系統(tǒng)和自動摘要等。其核心任務(wù)是預(yù)測句子中實(shí)體間的關(guān)系。例如,給定一個(gè)句子“Barack Obama is married to Michelle Obama.”,關(guān)系抽取的任務(wù)即預(yù)測出句中兩個(gè)實(shí)體間的關(guān)系為“配偶”關(guān)系。?
關(guān)系抽取算法最為突出的特點(diǎn)之一是對標(biāo)注實(shí)例存在著數(shù)量上的巨大需求,這一任務(wù)對于手工標(biāo)注幾乎是不可能完成的。在此背景下,遠(yuǎn)程監(jiān)督關(guān)系抽取算法應(yīng)運(yùn)而生。但該技術(shù)并不是完美無缺——遠(yuǎn)程監(jiān)督數(shù)據(jù)集始終無法擺脫噪聲數(shù)據(jù)的影響。
為了抑制噪聲,人們嘗試?yán)米⒁饬C(jī)制對含有噪聲的句子集合賦予權(quán)重以選擇出有效的訓(xùn)練樣本。但是,文章認(rèn)為這種只選擇出一個(gè)最佳樣本的思路并不是最優(yōu)的策略。為了提高模型的魯棒性,對于假正例不應(yīng)只是簡單的移除,而是應(yīng)把它們放在正確的位置——負(fù)例集合中。
遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)
文章提出一種基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)策略的框架,嘗試識別出數(shù)據(jù)集中的假正例,如下圖所示。
▲?本文提出的框架
與之前未充分利用遠(yuǎn)程監(jiān)督樣本的算法相比,該策略利用 RL agent 來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取。這里 agent 的目標(biāo)是根據(jù)關(guān)系分類器性能的變化,決定是保留還是移除當(dāng)前的實(shí)例(即一個(gè)句子)。然后,框架進(jìn)一步使基于深度強(qiáng)化學(xué)習(xí)策略的 agent 學(xué)會如何重建一個(gè)純凈的遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)集。
對于強(qiáng)化學(xué)習(xí)(RL),其擁有的兩個(gè)必備組件分別是:外部環(huán)境(external environment)和 RL agent,而一個(gè)具有良好魯棒性的 agent 正是通過這兩個(gè)組件的動態(tài)交互而訓(xùn)練出來的。
文章提出的 RL 方法各基本組成部分描述如下:
狀態(tài)(States):為了滿足馬爾可夫決策過程(Markov decision process,MDP)的條件,狀態(tài) s 同時(shí)包含當(dāng)前句子和早期狀態(tài)中移除的句子的信息。句子的語義和句法信息由一個(gè)連續(xù)實(shí)值向量表示。
文章參考一些性能較好的監(jiān)督關(guān)系抽取算法,同時(shí)使用詞嵌入和位置嵌入以將句子轉(zhuǎn)換為向量。有了這些句子向量,可以將當(dāng)前句子向量與早期狀態(tài)中移除句子的平均向量級聯(lián)起來,用以表示當(dāng)前狀態(tài)。對于當(dāng)前句子的向量,給予相對較大的權(quán)重,以增大當(dāng)前句子信息對決策行為的支配性影響。?
行為(Actions):在每一步中,agent 都會去判定實(shí)例對于目標(biāo)關(guān)系類型是否為假陽性。每一個(gè)關(guān)系類型都擁有一個(gè) agent,每個(gè) agent 都有兩個(gè)行為:對于當(dāng)前實(shí)例,作出是刪除或是保留的決定。
由于初始的遠(yuǎn)程監(jiān)督數(shù)據(jù)集中包含有被錯誤標(biāo)注的實(shí)例,期望 agent 能利用策略網(wǎng)絡(luò)過濾掉這些噪聲實(shí)例,由此得到的純凈數(shù)據(jù)集,以使遠(yuǎn)程監(jiān)督獲得更好的性能。?
獎勵(Rewards):如前所述,對于文章提出的模型可簡單的理解為:當(dāng)錯誤標(biāo)注數(shù)據(jù)被過濾掉后,關(guān)系分類器便能獲得更好的性能。因此,文章中的模型采用結(jié)果驅(qū)動策略,以性能變化為依據(jù),對 agent 的一系列行為決策進(jìn)行獎勵。獎勵通過相鄰 epochs 的差值來表示:
如上式所示,在第 i 步時(shí),F1 增加,則 agent 將收到一個(gè)正獎勵;反之,則 agent 將收到一個(gè)負(fù)獎勵。通過這樣的設(shè)置,獎勵值將與 F1 的差值成比例,α 的作用是將 F1 的差值轉(zhuǎn)換到有理數(shù)的范圍內(nèi)。為了消除 F1 的隨機(jī)性,文章使用最近 5 個(gè) epochs 的 F1 值的平均值來計(jì)算獎勵。?
策略網(wǎng)絡(luò)(Policy Network):對于每個(gè)輸入的句子,策略網(wǎng)絡(luò)負(fù)責(zé)判斷該句子是否表述了目標(biāo)關(guān)系類型,然后對于與目標(biāo)關(guān)系類型無關(guān)的句子啟動移除操作。這樣,多元分類器就轉(zhuǎn)換為了二元分類器。文章使用一個(gè)窗口大小為、kernel size 為的 CNN 來對策略網(wǎng)絡(luò) π(s;θ) 建模。
基于深度強(qiáng)化學(xué)習(xí)策略的agent訓(xùn)練
與遠(yuǎn)程監(jiān)督關(guān)系抽取的目標(biāo)不同,這里的 agent 只判斷標(biāo)注的句子是否表述目標(biāo)關(guān)系類型,而并不對實(shí)體間的關(guān)系進(jìn)行預(yù)測。
預(yù)訓(xùn)練策略
這里的預(yù)訓(xùn)練策略,是受到了 AlphaGo 的啟發(fā),是 RL 中加快 agent 訓(xùn)練的一種常見策略。對于某一具體的關(guān)系類型,直接將遠(yuǎn)程監(jiān)督正例集合作為正例集合,同時(shí)隨機(jī)選取遠(yuǎn)程監(jiān)督負(fù)例集合的一部分作為負(fù)例集合。
為了在預(yù)訓(xùn)練過程中能更好的考慮初始信息,負(fù)實(shí)例的數(shù)量是正實(shí)例數(shù)量的 10 倍。這是因?yàn)?#xff0c;通過學(xué)習(xí)大量負(fù)例樣本,agent 更有可能朝著更好的方向發(fā)展。文章利用交叉熵代價(jià)函數(shù)來訓(xùn)練這一二元分類器,其中,負(fù)標(biāo)簽對應(yīng)于刪除行為,正標(biāo)簽對應(yīng)于保留行為。
基于獎勵的agent再訓(xùn)練
如上圖所示,為了能夠識別出噪聲實(shí)例,這里引入一種基于 RL 策略的算法,其中的 agent 主要用于過濾出遠(yuǎn)程監(jiān)督正例集合中的噪聲樣本。
首先,將該集合分解為訓(xùn)練正例集合和驗(yàn)證正例集合,這兩個(gè)集合中都會包含有噪聲。相應(yīng)地,訓(xùn)練負(fù)例集合和驗(yàn)證負(fù)例集合是通過從遠(yuǎn)程監(jiān)督負(fù)例集合中隨機(jī)抽取獲得。
在每一個(gè)epoch中,通過隨機(jī)策略 π(a|s) 從中過濾出噪聲樣本集合,進(jìn)而獲得新的正例集合。由于是被識別出的錯誤標(biāo)注實(shí)例,因而將其補(bǔ)充進(jìn)負(fù)例集合。
此時(shí),每一個(gè)epoch中,訓(xùn)練集的規(guī)模是恒定的。之后,使用純凈數(shù)據(jù)集來訓(xùn)練關(guān)系分類器。預(yù)期的情況是,通過 RL agent 轉(zhuǎn)移假正例,以提升關(guān)系分類器的性能。
為此,利用驗(yàn)證集合來測試當(dāng)前 agent 的性能。首先,利用當(dāng)前agent對驗(yàn)證集中的噪聲實(shí)例進(jìn)行識別和轉(zhuǎn)移,獲得;然后:利用該集合計(jì)算當(dāng)前關(guān)系分類器的F1得分。最后,通過計(jì)算當(dāng)前和上一 epoch 的 F1 得分的差值以獲得獎勵值。
在上述訓(xùn)練過程中,為避免 agent 將正例集合中的真正例誤刪,在每一個(gè) epoch 中,對 RL agent 移除句子的數(shù)目設(shè)置一個(gè)閾值,即一個(gè) epoch 中移除的句子數(shù)目不能超過該值。這樣,如果 agent 決定移除當(dāng)前實(shí)例,則其他實(shí)例被移除的概率將變小。?
經(jīng)過上面的強(qiáng)化學(xué)習(xí)過程,對于每一種關(guān)系類型,都得到了一個(gè)可作為假正例指示器的 agent,利用這些 agent 來識別出遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的假正例。
實(shí)驗(yàn)
數(shù)據(jù)集
文章使用的數(shù)據(jù)集是通過將從 Freebase 中獲取的實(shí)體對與紐約時(shí)報(bào)(NYT)語料庫對齊而得到的。該數(shù)據(jù)集中包含 52 種事實(shí)關(guān)系,以及 1 種特殊關(guān)系 NA(表示頭部實(shí)體和尾部實(shí)體間不存在任何關(guān)系)。
實(shí)驗(yàn)設(shè)置?
基于深度強(qiáng)化學(xué)習(xí)策略的agent
文章提出的 RL agent 僅包括保留和移除兩個(gè)行為。因而,可以將 agent 建模為一個(gè)二元分類器。使用一個(gè)單窗口 CNN 作為策略網(wǎng)絡(luò)。其超參數(shù)的具體設(shè)置如下表所示。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)速率設(shè)置為。
獎勵計(jì)算
由于簡單網(wǎng)絡(luò)對訓(xùn)練集的質(zhì)量更為敏感,因而這里使用一個(gè)簡單的 CNN 模型來評估 agent 的一系列行為。將與之比和與均設(shè)置為 2:1。
強(qiáng)化學(xué)習(xí)的有效性
下表列出了采用 RL 算法的模型與未采用 RL 算法模型的 F1 得分。表中,/peo/per/pob 表示 /people/person/place of birth。
首先,與 Original case 相比,Pretrain agent 取得了明顯的進(jìn)步:它不僅證明了預(yù)訓(xùn)練策略的合理性。更說明,經(jīng)過基于 RL 策略的算法的再訓(xùn)練之后,F1 得分有了進(jìn)一步的提升。上述比較說明,本文基于 RL 策略的算法能夠使 agent 朝著正確的方向進(jìn)化。
假陽性樣本的影響
下面兩張圖說明,在 RL agent 的幫助下,同樣的模型,分別使用純凈數(shù)據(jù)集和原始數(shù)據(jù)集進(jìn)行訓(xùn)練,前者的性能要明顯好于后者。
▲?基于CNN的模型的PR曲線
▲?基于PCNN的模型的PR曲線
案例研究
下面這張表顯示的是 agent 選出的部分假正例樣本示例。以實(shí)體對(Sami Moubayed, Syria)為例,很明顯,對于關(guān)系 /people/person/place of birth,圖中的語料沒有提供任何相對應(yīng)的信息。兩句話都是在談?wù)撜畏治鰩?Sami Moubayed 發(fā)表的對于 Syria 形勢的分析,其內(nèi)容與關(guān)系 /people/person/place of birth 毫無關(guān)聯(lián)。
▲?部分假正例樣本的示例
總結(jié)
這篇文章提出了一種深度強(qiáng)化學(xué)習(xí)框架,可以有效降低遠(yuǎn)程監(jiān)督數(shù)據(jù)集中噪聲樣本對關(guān)系分類器性能的影響。之前提出的各種算法,大多把注意力集中在選擇一個(gè)最好的句子。
然而,這些方法并不是最優(yōu)的,數(shù)據(jù)噪聲問題仍是影響性能的重要因素。與這些算法相比,這篇文章提出的算法通過訓(xùn)練一個(gè) RL agent,來實(shí)現(xiàn)對假正例的識別和移動,通過構(gòu)建純凈的數(shù)據(jù)集來提升關(guān)系分類器的性能。
文章在 NYT 這一被廣泛使用的語料庫上,對算法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該深度強(qiáng)化學(xué)習(xí)框架與其他深度學(xué)習(xí)模型相比,在更大程度上提高了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能。
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
點(diǎn)擊標(biāo)題查看往期內(nèi)容推薦:?
自動機(jī)器學(xué)習(xí)(AutoML)最新綜述
自然語言處理中的語言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度解讀DeepMind新作:史上最強(qiáng)GAN圖像生成器
兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量
本周有哪些值得讀的AI論文?進(jìn)來告訴你答案
TensorSpace:超酷炫3D神經(jīng)網(wǎng)絡(luò)可視化框架
NIPS 2018:基于條件對抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)方法
NIPS 2018:可自適應(yīng)于不同環(huán)境的強(qiáng)化學(xué)習(xí)方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NeurIPS 2018 | 腾讯AI
- 下一篇: 论文多到读不完?不如看看我们为你精选的这