论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
論文鏈接:https://arxiv.org/pdf/1805.09927.pdf
來源:ACL2018
Motivation:
遠(yuǎn)程監(jiān)督是以一種生成關(guān)系抽取訓(xùn)練樣本的方法,無需人工標(biāo)注數(shù)據(jù)。但是遠(yuǎn)程監(jiān)督引入了噪音,即存在很多的假正例。本文的出發(fā)點非常簡單,希望通過強(qiáng)化學(xué)習(xí)的方法來訓(xùn)練一個假正例的判別器,它可以識別出數(shù)據(jù)集中的假正例,并加入到負(fù)例集中。產(chǎn)生更加干凈的訓(xùn)練集,從而提高分類器的性能。
Relatedwork:
對于遠(yuǎn)程監(jiān)督的噪音,之前常用的做法是加attention機(jī)制,給以真正例更大的權(quán)重,給以假正例較小的權(quán)重,單這種方法是次優(yōu)的。本文有一個有意思的地方,作者在文中指出,他在提交了ACL之后,發(fā)現(xiàn)已經(jīng)有一篇相同的工作. Reinforcement learning for relation classification from noisy data(參照論文筆記),是 feng 等人發(fā)表在AAAI 2018上的,兩篇文章從立意到方法都基本一致,唯一不同的就是強(qiáng)化學(xué)習(xí)的reward不同。feng 等人的論文中 reward 來自預(yù)測概率,而這篇論文的 reward 是分類器的性能的改變。
Model:
遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)框圖
模型的整體結(jié)構(gòu)如上圖所示。首先對每一個關(guān)系,生成相應(yīng)的正負(fù)樣本,劃訓(xùn)練集和驗證集。在每一個epoch中,利用了 policy based 的 agent,對訓(xùn)練集的正樣本做篩選,對每個句子選擇保留或者移除到負(fù)樣本集,得到篩選后的訓(xùn)練集。然后在此訓(xùn)練集上訓(xùn)練關(guān)系抽取分類器,在驗證集上做測試得到分類的F1值。根據(jù)分類器的 F1 值的變化得到 reward,最后利用 policy gradient 對參數(shù)作更新。下面介紹RL方法中幾個基本要素:
States:
為了滿足MDP的條件,state不僅包含了當(dāng)前句子的信息,還加入了過去句子的信息。對當(dāng)前句子給予較大的權(quán)重,對過去句子給予較小的權(quán)重。句子的向量表示采用了常用的 word embedding 和 position embedding。
Actions:
Agent 的作用是識別出正樣本中的假正例,所以action包含了兩種:判斷當(dāng)前句子為真正例并保留;判斷為假正例并移除到負(fù)樣本集中。
Rewards:
Rewards 來自于關(guān)系抽取分類器的性能變化,論文中采用的是第i輪的F1值減去第i-1輪的F1值。
Policy Network:
Policy Network 的作用相當(dāng)于一個二元分類器,故論文采取了一個簡單的CNN網(wǎng)絡(luò)。
另外,Policy Network 采用了預(yù)訓(xùn)練的策略,目的是加快收斂。訓(xùn)練整體的流程如下圖所示:
Experiments:
?????? 實驗在遠(yuǎn)程監(jiān)督常用的 NYT 數(shù)據(jù)集和主流方法做了比較。下表首先給出了在原始數(shù)據(jù)集、預(yù)訓(xùn)練的 agent 篩選后的數(shù)據(jù)集上、RL agent 篩選后的數(shù)據(jù)集上訓(xùn)練得到的分類器性能對比,可以看到,RL 有效提升了分類器的性能。
下面兩張圖給出了關(guān)系抽取分類器分別采用 CNN 和 PCNN 時,加入 RL 和不加 RL 的分類結(jié)果的 PR 曲線圖,可以看到加入 RL 提升了分類器的性能。
Conclusion:
????? 本文利用強(qiáng)化學(xué)習(xí)的方法,對遠(yuǎn)程監(jiān)督的數(shù)據(jù)集進(jìn)行降噪,從而提升分類器的性能。另外,Agent 的 Reward 來自于分類器性能的改變,不需要加入額外的監(jiān)督信息。
論文筆記整理:葉志權(quán),浙江大學(xué)碩士,研究方向為自然語言處理、知識圖譜。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于深度强化学习的远程监督数据集的降噪的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICML2020 | 拆解
- 下一篇: 论文浅尝 - ICML2020 | 通过