论文浅尝 | Learning with Noise: Supervised Relation Extraction
Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction with Dynamic TransitionMatrix[C]// Meeting of the Association for Computational Linguistics.2017:430-439.
鏈接:http://www.aclweb.org/anthology/P/P17/P17-1040.pdf
1. 動機
Distant supervision 是一種生成關(guān)系抽取訓(xùn)練集的常用方法。它把現(xiàn)有知識庫中的三元組 <e1,r, e2> 作為種子,匹配同時含有 e1 和 e2 的文本,得到的文本用作關(guān)系 r 的標(biāo)注數(shù)據(jù)。這樣可以省去大量人工標(biāo)記的工作。
但是這種匹配方式會產(chǎn)生很多噪音:比如三元組 <DonaldTrump, born-in, New York>,可能對齊到『Donald Trump was born in New York』,也可能對齊到『DonaldTrump worked in New York』。其中前一句是我們想要的標(biāo)注數(shù)據(jù),后一句則是噪音數(shù)據(jù)(并不表示born-in)。如何去除這些噪音數(shù)據(jù),是一個重要的研究課題。
2. 前人工作
1、通過定義規(guī)則過濾掉一些噪音數(shù)據(jù),缺點是依賴人工定義,并且被關(guān)系種類所限制。
2、Multi-instancelearning,把訓(xùn)練語句分包學(xué)習(xí),包內(nèi)取平均值,或者用 attention 加權(quán),可以中和掉包內(nèi)的噪音數(shù)據(jù)。缺點是受限于 at-least-one-assumption:每個包內(nèi)至少有一個正確的數(shù)據(jù)。
?
可以看出前人主要思路是『去噪』,即降低噪聲數(shù)據(jù)的印象。這篇文章提出用一個噪音矩陣來擬合噪音的分布,即給噪音建模,從而達到擬合真實分布的目的。
3. 模型
1、2是普通的關(guān)系抽取模型過程,3、4是噪音擬合的過程。
transition matrix 是一個轉(zhuǎn)移矩陣,大小為n * n,n是關(guān)系種類的數(shù)目。T_ij 的元素的值是 p( j| i ),即該句子代表關(guān)系為 i,但被誤判為j的概率。
這樣我們就可以得到:
????????? ???????????? × ????????? ??????=???????? ????????????
其中,predicted 是我們想要的真實分布,observed 是我們觀測到的噪音分布,這樣就可以用噪音數(shù)據(jù)進行聯(lián)合訓(xùn)練了。
3.1 全局轉(zhuǎn)移矩陣& 動態(tài)轉(zhuǎn)移矩陣
Global transition matrix 在關(guān)系層面上定義一個特定的轉(zhuǎn)移矩陣,比如
屬于 A 關(guān)系的句子,被誤判為 B 關(guān)系的概率是恒定的。
Dynamic transition matrix 是在句子層面上定義的,即使同屬于 A 關(guān)系,a1 句子和 b1 句子被誤判成 B 關(guān)系的概率也不同。比如下面兩句話,帶有 old house 的被誤判成 born-in 的概率更大。
動態(tài)轉(zhuǎn)移矩陣更有優(yōu)勢,粒度更細(xì)。
3.2. 訓(xùn)練方法
如果單純用 observed 的 loss,會出現(xiàn)問題,因為在初始化的時候,我們并不能保證p一定擬合真實分布,轉(zhuǎn)移矩陣也沒有任何先驗信息,容易收斂到局部最優(yōu)。
因此,文中用 curriculum learning進行訓(xùn)練:
trace 是轉(zhuǎn)移矩陣的跡,用于控制訓(xùn)練過程中噪音的作用,是矩陣的正則項。在沒有噪音的情況下,矩陣是一個單位矩陣,跡最大,此時矩陣沒有效果。跡越小,矩陣施加的效果越明顯。
curriculum learning 的步驟:
初始階段,alpha 為 1,beta 取一個很大的值,只學(xué)習(xí) p 分布,讓 p 獲得關(guān)系判定的能力;
后續(xù)階段,逐漸減小 alpha 和 beta,強化矩陣的作用,學(xué)習(xí)噪音分布 o,最后獲得真實的 p 分布和噪音 o 分布。
這樣通過調(diào)控過程,就可以避免學(xué)習(xí)出無意義的局部最優(yōu)值了。
3.3.先驗知識
可以給矩陣增加一些先驗知識,比如在 timeRE 的數(shù)據(jù)集上,根據(jù)時間粒度,對數(shù)據(jù)集進行可信度劃分,先訓(xùn)練可信數(shù)據(jù),再訓(xùn)練噪音數(shù)據(jù),這樣可以優(yōu)化最終的訓(xùn)練結(jié)果。
4. 實驗結(jié)果
作者在 timeRE 和 entityRE(NYT) 上均進行了訓(xùn)練,取得了降噪的 state-of-art。具體分析結(jié)果可以參照論文。
筆記整理:王冠穎,浙江大學(xué)碩士,研究方向為知識圖譜,關(guān)系抽取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Learning with Noise: Supervised Relation Extraction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习】LDA线性判别分析
- 下一篇: 关于PaddleNLP如何加载训练好的模