论文浅尝 | 基于局内去噪和迁移学习的关系抽取
動機
在遠程監督任務中,除了語料的錯誤標注問題,還存在句內噪聲單詞過多的問題,即多數句子都存在一些與表達關系無關的詞匯,這個問題未有人關注。當前研究的另一個問題是,句子特征抽取器采用隨機初始化的方法,存在不健壯的問題。
針對句內噪聲的問題,本文采用子樹解析的方法,去除與表達關系不相關的詞匯;針對關系抽取器不健壯的問題,本文采用遷移學習的方法,用實體分類對模型的參數做預訓練。
方法
本文方法包括三個部分:
(1)?????子樹解析。首先對句子做句法解析,然后找到兩個實體最近的共有祖先,最后取以該節點為根節點的子樹,保留句子中的這部分,其余部分丟棄。
(2)?????構造含有多個注意力機制的關系抽取器。采用BGRU作為句子語義抽取器,抽取器中添加面向單詞的注意力和面向實體的注意力。然后采用面向句子的注意力方法,結合一個實體對對齊的多個句子的信息作為實體對間關系的語義表示,用于后續的關系分類。
(3)?????參數遷移初始化。將模型部分結構用于實體類型分類任務,訓練得到的參數用作關系抽取器相應參數的初始化。
?
實驗
實驗進行了 held-out evaluation 和 manual evaluation,結果如下圖所示,可見取得了較好的效果。
?
筆記整理:劉兵,東南大學計算機博士,研究方向為自然語言處理、信息抽取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 基于局内去噪和迁移学习的关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 将字面含义嵌入知识图谱表示
- 下一篇: 论文浅尝 | 利用推理链进行视觉问题回答