日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

發(fā)布時間:2024/7/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于深度强化学习的远程监督数据集的降噪 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文鏈接:https://arxiv.org/pdf/1805.09927.pdf

來源:ACL2018


Motivation

遠(yuǎn)程監(jiān)督是以一種生成關(guān)系抽取訓(xùn)練樣本的方法,無需人工標(biāo)注數(shù)據(jù)。但是遠(yuǎn)程監(jiān)督引入了噪音,即存在很多的假正例。本文的出發(fā)點非常簡單,希望通過強(qiáng)化學(xué)習(xí)的方法來訓(xùn)練一個假正例的判別器,它可以識別出數(shù)據(jù)集中的假正例,并加入到負(fù)例集中。產(chǎn)生更加干凈的訓(xùn)練集,從而提高分類器的性能。

Relatedwork

對于遠(yuǎn)程監(jiān)督的噪音,之前常用的做法是加attention機(jī)制,給以真正例更大的權(quán)重,給以假正例較小的權(quán)重,單這種方法是次優(yōu)的。本文有一個有意思的地方,作者在文中指出,他在提交了ACL之后,發(fā)現(xiàn)已經(jīng)有一篇相同的工作. Reinforcement learning for relation classification from noisy data參照論文筆記),是 feng 等人發(fā)表在AAAI 2018上的,兩篇文章從立意到方法都基本一致,唯一不同的就是強(qiáng)化學(xué)習(xí)的reward不同。feng 等人的論文中 reward 來自預(yù)測概率,而這篇論文的 reward 是分類器的性能的改變。

Model:

遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)框圖

模型的整體結(jié)構(gòu)如上圖所示。首先對每一個關(guān)系,生成相應(yīng)的正負(fù)樣本,劃訓(xùn)練集和驗證集。在每一個epoch中,利用了 policy based agent,對訓(xùn)練集的正樣本做篩選,對每個句子選擇保留或者移除到負(fù)樣本集,得到篩選后的訓(xùn)練集。然后在此訓(xùn)練集上訓(xùn)練關(guān)系抽取分類器,在驗證集上做測試得到分類的F1值。根據(jù)分類器的 F1 值的變化得到 reward,最后利用 policy gradient 對參數(shù)作更新。下面介紹RL方法中幾個基本要素:

  • States

為了滿足MDP的條件,state不僅包含了當(dāng)前句子的信息,還加入了過去句子的信息。對當(dāng)前句子給予較大的權(quán)重,對過去句子給予較小的權(quán)重。句子的向量表示采用了常用的 word embeddingposition embedding

  • Actions

Agent 的作用是識別出正樣本中的假正例,所以action包含了兩種:判斷當(dāng)前句子為真正例并保留;判斷為假正例并移除到負(fù)樣本集中。

  • Rewards

Rewards 來自于關(guān)系抽取分類器的性能變化,論文中采用的是第i輪的F1值減去第i-1輪的F1值。

  • Policy Network

Policy Network 的作用相當(dāng)于一個二元分類器,故論文采取了一個簡單的CNN網(wǎng)絡(luò)。

另外,Policy Network 采用了預(yù)訓(xùn)練的策略,目的是加快收斂。訓(xùn)練整體的流程如下圖所示:

Experiments

?????? 實驗在遠(yuǎn)程監(jiān)督常用的 NYT 數(shù)據(jù)集和主流方法做了比較。下表首先給出了在原始數(shù)據(jù)集、預(yù)訓(xùn)練的 agent 篩選后的數(shù)據(jù)集上、RL agent 篩選后的數(shù)據(jù)集上訓(xùn)練得到的分類器性能對比,可以看到,RL 有效提升了分類器的性能。

下面兩張圖給出了關(guān)系抽取分類器分別采用 CNN PCNN 時,加入 RL 和不加 RL 的分類結(jié)果的 PR 曲線圖,可以看到加入 RL 提升了分類器的性能。

Conclusion

????? 本文利用強(qiáng)化學(xué)習(xí)的方法,對遠(yuǎn)程監(jiān)督的數(shù)據(jù)集進(jìn)行降噪,從而提升分類器的性能。另外,Agent Reward 來自于分類器性能的改變,不需要加入額外的監(jiān)督信息。


論文筆記整理:葉志權(quán),浙江大學(xué)碩士,研究方向為自然語言處理、知識圖譜。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于深度强化学习的远程监督数据集的降噪的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。