ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?122?篇文章作者丨盧靖宇
學校丨西安電子科技大學碩士
研究方向丨自然語言處理
目前遠程監督技術已經成為了關系抽取的標準配備之一。盡管該方法很有效,但它并不是無代價的——其獲取的訓練樣本中總是存在噪聲。針對這一問題,本文設計了一個深度強化學習框架,用于移除原始訓練集中的假陽性實例,并重建一個純凈的訓練(測試)數據集,以提高關系分類的精度。
論文主要創新有以下三點:
1. 為提高遠程監督關系抽取的魯棒性,設計了一個新的深度強化學習框架;
2. 該算法獨立于關系抽取模型的,是一種即插即用的技術,可應用于任何一個現有的遠程監督關系抽取模型;
3. 文章通過實驗證明了該方法可以提升目前最新提出的關系抽取模型的性能。
論文動機
本文是北京郵電大學和加利福尼亞大學 Santa Barbara 分校發表在 ACL 2018?上的工作,論文嘗試使用一種深度強化學習框架來生成一個假正例指示器,該框架在沒有任何監督信息的情況下自動識別每個關系類型實例集中的假正例實例。
與以往研究成果中直接移除假正例的操作不同,該策略則將這些假正例重新分配至相應關系類型的負例實例集中。文章在實驗中,將使用該框架的模型的性能同當前最先進的幾種模型進行了對比。結果顯示,文章提出的框架能給遠程監督關系抽取模型帶來明顯的性能提升。
問題引入
關系抽取是知識圖譜構建的關鍵模塊之一,同時它也是許多自然語言處理應用的重要組成部分,諸如情感分析、問答系統和自動摘要等。其核心任務是預測句子中實體間的關系。例如,給定一個句子“Barack Obama is married to Michelle Obama.”,關系抽取的任務即預測出句中兩個實體間的關系為“配偶”關系。?
關系抽取算法最為突出的特點之一是對標注實例存在著數量上的巨大需求,這一任務對于手工標注幾乎是不可能完成的。在此背景下,遠程監督關系抽取算法應運而生。但該技術并不是完美無缺——遠程監督數據集始終無法擺脫噪聲數據的影響。
為了抑制噪聲,人們嘗試利用注意力機制對含有噪聲的句子集合賦予權重以選擇出有效的訓練樣本。但是,文章認為這種只選擇出一個最佳樣本的思路并不是最優的策略。為了提高模型的魯棒性,對于假正例不應只是簡單的移除,而是應把它們放在正確的位置——負例集合中。
遠程監督中的強化學習
文章提出一種基于強化學習(Reinforcement Learning,RL)策略的框架,嘗試識別出數據集中的假正例,如下圖所示。
▲?本文提出的框架
與之前未充分利用遠程監督樣本的算法相比,該策略利用 RL agent 來進行遠程監督關系抽取。這里 agent 的目標是根據關系分類器性能的變化,決定是保留還是移除當前的實例(即一個句子)。然后,框架進一步使基于深度強化學習策略的 agent 學會如何重建一個純凈的遠程監督訓練數據集。
對于強化學習(RL),其擁有的兩個必備組件分別是:外部環境(external environment)和 RL agent,而一個具有良好魯棒性的 agent 正是通過這兩個組件的動態交互而訓練出來的。
文章提出的 RL 方法各基本組成部分描述如下:
狀態(States):為了滿足馬爾可夫決策過程(Markov decision process,MDP)的條件,狀態 s 同時包含當前句子和早期狀態中移除的句子的信息。句子的語義和句法信息由一個連續實值向量表示。
文章參考一些性能較好的監督關系抽取算法,同時使用詞嵌入和位置嵌入以將句子轉換為向量。有了這些句子向量,可以將當前句子向量與早期狀態中移除句子的平均向量級聯起來,用以表示當前狀態。對于當前句子的向量,給予相對較大的權重,以增大當前句子信息對決策行為的支配性影響。?
行為(Actions):在每一步中,agent 都會去判定實例對于目標關系類型是否為假陽性。每一個關系類型都擁有一個 agent,每個 agent 都有兩個行為:對于當前實例,作出是刪除或是保留的決定。
由于初始的遠程監督數據集中包含有被錯誤標注的實例,期望 agent 能利用策略網絡過濾掉這些噪聲實例,由此得到的純凈數據集,以使遠程監督獲得更好的性能。?
獎勵(Rewards):如前所述,對于文章提出的模型可簡單的理解為:當錯誤標注數據被過濾掉后,關系分類器便能獲得更好的性能。因此,文章中的模型采用結果驅動策略,以性能變化為依據,對 agent 的一系列行為決策進行獎勵。獎勵通過相鄰 epochs 的差值來表示:
如上式所示,在第 i 步時,F1 增加,則 agent 將收到一個正獎勵;反之,則 agent 將收到一個負獎勵。通過這樣的設置,獎勵值將與 F1 的差值成比例,α 的作用是將 F1 的差值轉換到有理數的范圍內。為了消除 F1 的隨機性,文章使用最近 5 個 epochs 的 F1 值的平均值來計算獎勵。?
策略網絡(Policy Network):對于每個輸入的句子,策略網絡負責判斷該句子是否表述了目標關系類型,然后對于與目標關系類型無關的句子啟動移除操作。這樣,多元分類器就轉換為了二元分類器。文章使用一個窗口大小為、kernel size 為的 CNN 來對策略網絡 π(s;θ) 建模。
基于深度強化學習策略的agent訓練
與遠程監督關系抽取的目標不同,這里的 agent 只判斷標注的句子是否表述目標關系類型,而并不對實體間的關系進行預測。
預訓練策略
這里的預訓練策略,是受到了 AlphaGo 的啟發,是 RL 中加快 agent 訓練的一種常見策略。對于某一具體的關系類型,直接將遠程監督正例集合作為正例集合,同時隨機選取遠程監督負例集合的一部分作為負例集合。
為了在預訓練過程中能更好的考慮初始信息,負實例的數量是正實例數量的 10 倍。這是因為,通過學習大量負例樣本,agent 更有可能朝著更好的方向發展。文章利用交叉熵代價函數來訓練這一二元分類器,其中,負標簽對應于刪除行為,正標簽對應于保留行為。
基于獎勵的agent再訓練
如上圖所示,為了能夠識別出噪聲實例,這里引入一種基于 RL 策略的算法,其中的 agent 主要用于過濾出遠程監督正例集合中的噪聲樣本。
首先,將該集合分解為訓練正例集合和驗證正例集合,這兩個集合中都會包含有噪聲。相應地,訓練負例集合和驗證負例集合是通過從遠程監督負例集合中隨機抽取獲得。
在每一個epoch中,通過隨機策略 π(a|s) 從中過濾出噪聲樣本集合,進而獲得新的正例集合。由于是被識別出的錯誤標注實例,因而將其補充進負例集合。
此時,每一個epoch中,訓練集的規模是恒定的。之后,使用純凈數據集來訓練關系分類器。預期的情況是,通過 RL agent 轉移假正例,以提升關系分類器的性能。
為此,利用驗證集合來測試當前 agent 的性能。首先,利用當前agent對驗證集中的噪聲實例進行識別和轉移,獲得;然后:利用該集合計算當前關系分類器的F1得分。最后,通過計算當前和上一 epoch 的 F1 得分的差值以獲得獎勵值。
在上述訓練過程中,為避免 agent 將正例集合中的真正例誤刪,在每一個 epoch 中,對 RL agent 移除句子的數目設置一個閾值,即一個 epoch 中移除的句子數目不能超過該值。這樣,如果 agent 決定移除當前實例,則其他實例被移除的概率將變小。?
經過上面的強化學習過程,對于每一種關系類型,都得到了一個可作為假正例指示器的 agent,利用這些 agent 來識別出遠程監督數據集中的假正例。
實驗
數據集
文章使用的數據集是通過將從 Freebase 中獲取的實體對與紐約時報(NYT)語料庫對齊而得到的。該數據集中包含 52 種事實關系,以及 1 種特殊關系 NA(表示頭部實體和尾部實體間不存在任何關系)。
實驗設置?
基于深度強化學習策略的agent
文章提出的 RL agent 僅包括保留和移除兩個行為。因而,可以將 agent 建模為一個二元分類器。使用一個單窗口 CNN 作為策略網絡。其超參數的具體設置如下表所示。強化學習的學習速率設置為。
獎勵計算
由于簡單網絡對訓練集的質量更為敏感,因而這里使用一個簡單的 CNN 模型來評估 agent 的一系列行為。將與之比和與均設置為 2:1。
強化學習的有效性
下表列出了采用 RL 算法的模型與未采用 RL 算法模型的 F1 得分。表中,/peo/per/pob 表示 /people/person/place of birth。
首先,與 Original case 相比,Pretrain agent 取得了明顯的進步:它不僅證明了預訓練策略的合理性。更說明,經過基于 RL 策略的算法的再訓練之后,F1 得分有了進一步的提升。上述比較說明,本文基于 RL 策略的算法能夠使 agent 朝著正確的方向進化。
假陽性樣本的影響
下面兩張圖說明,在 RL agent 的幫助下,同樣的模型,分別使用純凈數據集和原始數據集進行訓練,前者的性能要明顯好于后者。
▲?基于CNN的模型的PR曲線
▲?基于PCNN的模型的PR曲線
案例研究
下面這張表顯示的是 agent 選出的部分假正例樣本示例。以實體對(Sami Moubayed, Syria)為例,很明顯,對于關系 /people/person/place of birth,圖中的語料沒有提供任何相對應的信息。兩句話都是在談論政治分析師 Sami Moubayed 發表的對于 Syria 形勢的分析,其內容與關系 /people/person/place of birth 毫無關聯。
▲?部分假正例樣本的示例
總結
這篇文章提出了一種深度強化學習框架,可以有效降低遠程監督數據集中噪聲樣本對關系分類器性能的影響。之前提出的各種算法,大多把注意力集中在選擇一個最好的句子。
然而,這些方法并不是最優的,數據噪聲問題仍是影響性能的重要因素。與這些算法相比,這篇文章提出的算法通過訓練一個 RL agent,來實現對假正例的識別和移動,通過構建純凈的數據集來提升關系分類器的性能。
文章在 NYT 這一被廣泛使用的語料庫上,對算法進行了驗證。實驗結果表明,該深度強化學習框架與其他深度學習模型相比,在更大程度上提高了遠程監督關系抽取的性能。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看往期內容推薦:?
自動機器學習(AutoML)最新綜述
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度解讀DeepMind新作:史上最強GAN圖像生成器
兩行代碼玩轉Google BERT句向量詞向量
本周有哪些值得讀的AI論文?進來告訴你答案
TensorSpace:超酷炫3D神經網絡可視化框架
NIPS 2018:基于條件對抗網絡的領域自適應方法
NIPS 2018:可自適應于不同環境的強化學習方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NeurIPS 2018 | 腾讯AI
- 下一篇: 论文多到读不完?不如看看我们为你精选的这