當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

發(fā)布時間：2024/7/5 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于深度强化学习的远程监督数据集的降噪小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文鏈接：https://arxiv.org/pdf/1805.09927.pdf

來源：ACL2018

Motivation：

遠(yuǎn)程監(jiān)督是以一種生成關(guān)系抽取訓(xùn)練樣本的方法，無需人工標(biāo)注數(shù)據(jù)。但是遠(yuǎn)程監(jiān)督引入了噪音，即存在很多的假正例。本文的出發(fā)點非常簡單，希望通過強(qiáng)化學(xué)習(xí)的方法來訓(xùn)練一個假正例的判別器，它可以識別出數(shù)據(jù)集中的假正例，并加入到負(fù)例集中。產(chǎn)生更加干凈的訓(xùn)練集，從而提高分類器的性能。

Relatedwork：

對于遠(yuǎn)程監(jiān)督的噪音，之前常用的做法是加attention機(jī)制，給以真正例更大的權(quán)重，給以假正例較小的權(quán)重，單這種方法是次優(yōu)的。本文有一個有意思的地方，作者在文中指出，他在提交了ACL之后，發(fā)現(xiàn)已經(jīng)有一篇相同的工作. Reinforcement learning for relation classification from noisy data（參照論文筆記），是 feng 等人發(fā)表在AAAI 2018上的，兩篇文章從立意到方法都基本一致，唯一不同的就是強(qiáng)化學(xué)習(xí)的reward不同。feng 等人的論文中 reward 來自預(yù)測概率，而這篇論文的 reward 是分類器的性能的改變。

Model:

遠(yuǎn)程監(jiān)督中的強(qiáng)化學(xué)習(xí)框圖

模型的整體結(jié)構(gòu)如上圖所示。首先對每一個關(guān)系，生成相應(yīng)的正負(fù)樣本，劃訓(xùn)練集和驗證集。在每一個epoch中，利用了 policy based 的 agent，對訓(xùn)練集的正樣本做篩選，對每個句子選擇保留或者移除到負(fù)樣本集，得到篩選后的訓(xùn)練集。然后在此訓(xùn)練集上訓(xùn)練關(guān)系抽取分類器，在驗證集上做測試得到分類的F1值。根據(jù)分類器的 F1 值的變化得到 reward，最后利用 policy gradient 對參數(shù)作更新。下面介紹RL方法中幾個基本要素：

States：

為了滿足MDP的條件，state不僅包含了當(dāng)前句子的信息，還加入了過去句子的信息。對當(dāng)前句子給予較大的權(quán)重，對過去句子給予較小的權(quán)重。句子的向量表示采用了常用的 word embedding 和 position embedding。

Actions：

Agent 的作用是識別出正樣本中的假正例，所以action包含了兩種：判斷當(dāng)前句子為真正例并保留；判斷為假正例并移除到負(fù)樣本集中。

Rewards：

Rewards 來自于關(guān)系抽取分類器的性能變化，論文中采用的是第i輪的F1值減去第i-1輪的F1值。

Policy Network：

Policy Network 的作用相當(dāng)于一個二元分類器，故論文采取了一個簡單的CNN網(wǎng)絡(luò)。

另外，Policy Network 采用了預(yù)訓(xùn)練的策略，目的是加快收斂。訓(xùn)練整體的流程如下圖所示：

Experiments：

?????? 實驗在遠(yuǎn)程監(jiān)督常用的 NYT 數(shù)據(jù)集和主流方法做了比較。下表首先給出了在原始數(shù)據(jù)集、預(yù)訓(xùn)練的 agent 篩選后的數(shù)據(jù)集上、RL agent 篩選后的數(shù)據(jù)集上訓(xùn)練得到的分類器性能對比，可以看到，RL 有效提升了分類器的性能。

下面兩張圖給出了關(guān)系抽取分類器分別采用 CNN 和 PCNN 時，加入 RL 和不加 RL 的分類結(jié)果的 PR 曲線圖，可以看到加入 RL 提升了分類器的性能。

Conclusion：

????? 本文利用強(qiáng)化學(xué)習(xí)的方法，對遠(yuǎn)程監(jiān)督的數(shù)據(jù)集進(jìn)行降噪，從而提升分類器的性能。另外，Agent 的 Reward 來自于分類器性能的改變，不需要加入額外的監(jiān)督信息。

論文筆記整理：葉志權(quán)，浙江大學(xué)碩士，研究方向為自然語言處理、知識圖譜。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于深度强化学习的远程监督数据集的降噪的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ICML2020 | 拆解
下一篇：论文浅尝 - ICML2020 | 通过