日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

發布時間:2024/7/5 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于深度强化学习的远程监督数据集的降噪 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接:https://arxiv.org/pdf/1805.09927.pdf

來源:ACL2018


Motivation

遠程監督是以一種生成關系抽取訓練樣本的方法,無需人工標注數據。但是遠程監督引入了噪音,即存在很多的假正例。本文的出發點非常簡單,希望通過強化學習的方法來訓練一個假正例的判別器,它可以識別出數據集中的假正例,并加入到負例集中。產生更加干凈的訓練集,從而提高分類器的性能。

Relatedwork

對于遠程監督的噪音,之前常用的做法是加attention機制,給以真正例更大的權重,給以假正例較小的權重,單這種方法是次優的。本文有一個有意思的地方,作者在文中指出,他在提交了ACL之后,發現已經有一篇相同的工作. Reinforcement learning for relation classification from noisy data參照論文筆記),是 feng 等人發表在AAAI 2018上的,兩篇文章從立意到方法都基本一致,唯一不同的就是強化學習的reward不同。feng 等人的論文中 reward 來自預測概率,而這篇論文的 reward 是分類器的性能的改變。

Model:

遠程監督中的強化學習框圖

模型的整體結構如上圖所示。首先對每一個關系,生成相應的正負樣本,劃訓練集和驗證集。在每一個epoch中,利用了 policy based agent,對訓練集的正樣本做篩選,對每個句子選擇保留或者移除到負樣本集,得到篩選后的訓練集。然后在此訓練集上訓練關系抽取分類器,在驗證集上做測試得到分類的F1值。根據分類器的 F1 值的變化得到 reward,最后利用 policy gradient 對參數作更新。下面介紹RL方法中幾個基本要素:

  • States

為了滿足MDP的條件,state不僅包含了當前句子的信息,還加入了過去句子的信息。對當前句子給予較大的權重,對過去句子給予較小的權重。句子的向量表示采用了常用的 word embeddingposition embedding

  • Actions

Agent 的作用是識別出正樣本中的假正例,所以action包含了兩種:判斷當前句子為真正例并保留;判斷為假正例并移除到負樣本集中。

  • Rewards

Rewards 來自于關系抽取分類器的性能變化,論文中采用的是第i輪的F1值減去第i-1輪的F1值。

  • Policy Network

Policy Network 的作用相當于一個二元分類器,故論文采取了一個簡單的CNN網絡。

另外,Policy Network 采用了預訓練的策略,目的是加快收斂。訓練整體的流程如下圖所示:

Experiments

?????? 實驗在遠程監督常用的 NYT 數據集和主流方法做了比較。下表首先給出了在原始數據集、預訓練的 agent 篩選后的數據集上、RL agent 篩選后的數據集上訓練得到的分類器性能對比,可以看到,RL 有效提升了分類器的性能。

下面兩張圖給出了關系抽取分類器分別采用 CNN PCNN 時,加入 RL 和不加 RL 的分類結果的 PR 曲線圖,可以看到加入 RL 提升了分類器的性能。

Conclusion

????? 本文利用強化學習的方法,對遠程監督的數據集進行降噪,從而提升分類器的性能。另外,Agent Reward 來自于分類器性能的改變,不需要加入額外的監督信息。


論文筆記整理:葉志權,浙江大學碩士,研究方向為自然語言處理、知識圖譜。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于深度强化学习的远程监督数据集的降噪的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。