论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取
論文筆記整理:吳涵,天津大學碩士,研究方向:自然語言處理
Paper:https://www.aclweb.org/anthology/P19-1430/
Code:https://github.com/thunlp/Chinese_NRE
?
引入
中文NER問題在很大程度上取決于分詞的效果,所以在中文NER問題中,學者們通常先對文本進行分詞然后再預測序列中單詞的類別。這樣一來會導致一個問題,即在分詞中造成的錯誤會影響到NER的結果。
如果單純采用字向量的話會導致拆開了很多并不應該拆開的詞語,從而丟失了它們本身的內在信息(比如“人生”這個詞如果拆成字向量就成了“人”和“生”,這兩個字的單獨含義明顯與它們組合起來的詞的含義大相徑庭)。為了解決這個問題,該論文使用了一種新型的格子結構(latticestructure),它能夠將單詞本身的含義加入基于字向量的模型中,并引入義原作為外部知識。
?
文章摘要
????本文在ACL2018的一篇論文《ChineseNER Using Lattice LSTM》上加以改進,加入了義原作為外部知識,可以更好地理解語義信息。
由于同時考慮了詞格作為一個cell,自然網絡中路徑就變多,所以要對于基本的LSTM網絡的計算公式加以修改:
?
對詞格結尾的字符(如圖中的“市”)進行計算時,會有一點不同:由于向“市”的cell有兩個信息流的輸入,故需要再加一個inputgate,兩個門同時通過不同的信息流,需要設置權重:
本文模型:引入義原作為外部知識
?
加入義原后,計算時,在詞格cell狀態的計算上考慮不同義項帶來的影響,并為不同的義項設置不同的權重:
?
?
實驗結果:
?
? 通過與基于詞粒度和字符粒度模型進行比較,可以得出,加入義原的多粒度模型可以獲得更好的效果,同時,詞格模型也是性能提升的重要原因。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 资源征集 | 2021年全国知识图谱与语
- 下一篇: 论文浅尝 - EMNLP2020 | 通