论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
論文鏈接:https://arxiv.org/pdf/1805.09927.pdf
來源:ACL2018
Motivation:
遠程監督是以一種生成關系抽取訓練樣本的方法,無需人工標注數據。但是遠程監督引入了噪音,即存在很多的假正例。本文的出發點非常簡單,希望通過強化學習的方法來訓練一個假正例的判別器,它可以識別出數據集中的假正例,并加入到負例集中。產生更加干凈的訓練集,從而提高分類器的性能。
Relatedwork:
對于遠程監督的噪音,之前常用的做法是加attention機制,給以真正例更大的權重,給以假正例較小的權重,單這種方法是次優的。本文有一個有意思的地方,作者在文中指出,他在提交了ACL之后,發現已經有一篇相同的工作. Reinforcement learning for relation classification from noisy data(參照論文筆記),是 feng 等人發表在AAAI 2018上的,兩篇文章從立意到方法都基本一致,唯一不同的就是強化學習的reward不同。feng 等人的論文中 reward 來自預測概率,而這篇論文的 reward 是分類器的性能的改變。
Model:
遠程監督中的強化學習框圖
模型的整體結構如上圖所示。首先對每一個關系,生成相應的正負樣本,劃訓練集和驗證集。在每一個epoch中,利用了 policy based 的 agent,對訓練集的正樣本做篩選,對每個句子選擇保留或者移除到負樣本集,得到篩選后的訓練集。然后在此訓練集上訓練關系抽取分類器,在驗證集上做測試得到分類的F1值。根據分類器的 F1 值的變化得到 reward,最后利用 policy gradient 對參數作更新。下面介紹RL方法中幾個基本要素:
States:
為了滿足MDP的條件,state不僅包含了當前句子的信息,還加入了過去句子的信息。對當前句子給予較大的權重,對過去句子給予較小的權重。句子的向量表示采用了常用的 word embedding 和 position embedding。
Actions:
Agent 的作用是識別出正樣本中的假正例,所以action包含了兩種:判斷當前句子為真正例并保留;判斷為假正例并移除到負樣本集中。
Rewards:
Rewards 來自于關系抽取分類器的性能變化,論文中采用的是第i輪的F1值減去第i-1輪的F1值。
Policy Network:
Policy Network 的作用相當于一個二元分類器,故論文采取了一個簡單的CNN網絡。
另外,Policy Network 采用了預訓練的策略,目的是加快收斂。訓練整體的流程如下圖所示:
Experiments:
?????? 實驗在遠程監督常用的 NYT 數據集和主流方法做了比較。下表首先給出了在原始數據集、預訓練的 agent 篩選后的數據集上、RL agent 篩選后的數據集上訓練得到的分類器性能對比,可以看到,RL 有效提升了分類器的性能。
下面兩張圖給出了關系抽取分類器分別采用 CNN 和 PCNN 時,加入 RL 和不加 RL 的分類結果的 PR 曲線圖,可以看到加入 RL 提升了分類器的性能。
Conclusion:
????? 本文利用強化學習的方法,對遠程監督的數據集進行降噪,從而提升分類器的性能。另外,Agent 的 Reward 來自于分類器性能的改變,不需要加入額外的監督信息。
論文筆記整理:葉志權,浙江大學碩士,研究方向為自然語言處理、知識圖譜。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于深度强化学习的远程监督数据集的降噪的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICML2020 | 拆解
- 下一篇: 论文浅尝 - ICML2020 | 通过