论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法
Citation: Liu, L., Ren, X., Zhu, Q., Zhi, S., Gui, H., Ji, H., & Han, J.(2017). Heterogeneous Supervision for Relation Extraction: A RepresentationLearning Approach. Retrieved from http://arxiv.org/abs/1707.00166
?
動機
現有的關系抽取方法嚴重依賴于人工標注的數據,為了克服這個問題,本文提出基于異種信息源的標注開展關系抽取模型學習的方法,例如知識庫、領域知識。這種標注稱作異源監督(heterogeneous supervision),其存在的問題是標注沖突問題,即對于同一個關系描述,不同來源的信息標注的結果不同。這種方法帶來的挑戰是如何從有噪聲的標注中推理出正確的標簽,以及利用標注推理結果訓練模型。
例如下面的句子,知識庫中如果存在<Gofraid,born_in, Dal Riata>這個三元組,則將下面的句子標注為born_in關系;而如果使用人工模板“* killed in*”進行匹配,則會將該句子標注為kill_in關系。
?
Gofraid(e1) died in989, said to be killed in Dal Riata(e2).
?
為了解決這個問題,本文提出使用表示學習的方法實現為關系抽取提供異源監督。
?
創新點
本文首次提出使用表示學習的方法為關系抽取提供異源監督,這種使用表示學習得到的高質量的上下文表示是真實標簽發現和關系抽取的基礎。
?
方法
文章方法框架如下:
圖 關系描述表示方法
?
(1)文本特征的向量表示。從文本上下文中抽取出文本特征(基于pattern得到),簡單的one-hot方法會得到維度非常大的向量表示,且存在稀疏的問題。為了得到更好的泛化能力,本文采用表示學習的方法,將這些特征表示成低維的連續實值向量;
(2)關系描述的向量表示。在得到文本特征的表示之后,關系描述文本依據這些向量的表示生成關系描述的向量表示。這里采用對文本特征向量進行矩陣變換、非線性變換的方式實現;
(3)真實標簽發現。由于關系描述文本存在多個可能沖突的標注,因此發現真實標簽是一大挑戰。此處將每個標注來源視為一個標注函數,這些標注函數均有其“擅長”的部分,即一個標注正確率高的語料子集。本方法將得到每種標注函數擅長的語料子集的表示,并以此計算標注函數相對于每個關系描述的可信度,最后綜合各標注函數的標注結果和可信度,得到最終的標注結果;
(4)關系抽取模型訓練。在推斷了關系描述的真實標簽后,將使用標注的語料訓練關系抽取器。
?
值得指出的是,在本方法中,每個環節不是各自獨立的,真實標簽發現與關系抽取模型訓練會相互影響,得到關系上下文整體最優的表示方法。
?
?
實驗結果
本文使用 NYT 和 Wiki-KBP 兩個數據集進行了實驗,標注來源一方面是知識庫,另一方面是人工構造的模板。每組數據集進行了包含 None 類型的關系抽取,和不包含 None 類型的關系分類。結果如下表所示,可見本文的方法相比于其他方法,在兩個數據集的四組實驗中均有較明顯的性能提升。
論文筆記整理:劉兵,東南大學博士,研究方向為自然語言處理。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 法律规则鬼畜图解||全面易懂的旅游投诉赔
- 下一篇: Selenium爬虫