论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention
文章目錄
- 1 當前不足
- 2. 本文的想法
- 3.相關工作
- 4.KNET
- 4.1encoder
- 4.2類型預測
- 4.3attention
- 5.實驗
- 6.以后
Improving Neural Fine-Grained Entity Typing with Knowledge Attention
- 用于:Fine-grained entity typing細粒度實體類型(它將實體劃分為大量細粒度類型,更多類型,可能有層次嵌套)
- 以前:關注上下文的復雜關聯,忽略了在知識庫中的豐富的背景知識
- 本文:KBs+上下文+mention,attention
1 當前不足
- 將mention和上下文分割開考慮,沒考慮他們之間的聯系
- 實體上下文分離?,F有的方法通常將實體提及(mention)和上下文單詞編碼為單獨的特性,而不考慮它們之間的相關性。但是,可以直觀地看出,每個上下文單詞的重要性都受到相關實體的顯著影響。例如,在蓋茨和艾倫共同創立的微軟成為最大的軟件公司這句話中,當我們決定實體的類型時,上下文單詞“公司”是很重要的,但是當我們決定蓋茨的類型時,上下文單詞“公司”就不那么重要了。
- 沒有想過用KBs
- 背景知識是很重要的
- 文本知識分離。知識庫(KBs,也稱為知識圖),如YAGO、Freebase,以三元組(h、r、t)的形式提供了實體之間關系的豐富信息,其中h、t是頭實體和尾實體,r是它們之間的關系。這些信息描述了實體之間的關系和交互,因此對實體類型很有幫助。例如,給定一個triple (USA, shared border with, Canada),可以推斷,在某句話中,Canada很可能是一個國家。但是,在以前的w中,從來沒有使用過關系信息。
2. 本文的想法
為了解決實體-上下文分離和文本-知識分離的問題,我們提出了KnowledgeAttention神經細粒度實體類型(KNET)。如圖1所示,我們的模型主要由兩部分組成。首先,我們建立一個神經網絡來生成上下文和實體提及表示。其次,在實體提及的基礎上,運用知識注意力關注重要的語境詞,提高語境表達的質量。知識注意力的計算采用實體嵌入的方法,它從知識庫的相關信息中學習,然后從文本中重構??紤]到我們將在測試中同時遇到in-KB和out- KB實體,我們提出了一個消除歧義的過程,不僅可以為in-KB實體提供精確的KB信息,還可以為out- KB實體提供有用的知識
- 神經網絡生成context和mention的表達
- 在mention的基礎上,從KB中拿出了mention的表達,來做context的attention權重
- knowledge attention :基于mention+in-KB+out-KB
- 內涵消歧過程
- 給in-KB提供精確的KB信息
- 給out-KB提供有用的知識
3.相關工作
-
Dong等人(2015)首次嘗試探索只使用詞嵌入作為特征的實體輸入中的深度學習。此外,
-
Shimaoka等人(2016)為FET引入了一種基于注意力的長短時記憶(LSTM),
-
Shimaoka等人(2017)將手工制作的特征加入到基于注意力的神經模型中。
-
—》然而,這些神經模型遇到了實體-上下文分離和文本-知識分離的挑戰。本文試圖通過結合KBs的豐富信息來解決這些問題
-
KBs在之前的許多著作中都被考慮過(Del Corro et al. 2015;Ren等人2016a;Yaghoobzadeh和Schutze 2017)。然而,他們只考慮知識庫中每個實體的類型信息,而忽略了豐富的關系信息(不同實體之間的關系),而這些信息恰好是知識庫的重要組成部分。在本文中,我們使用知識表示學習將關系信息合并到實體類型中(詳見下一小節)。
-
之前
- 只考慮了KB中的實體類型信息
- 忽略了關系信息
-
句子級別
- Schutze (2015;2017)考慮體級神經實體類型。語料庫級實體類型化旨在從大型語料庫中推斷出實體的全局類型,通常是通過聚合所有提到實體的句子的信息來實現的。相反,句子級實體類型化試圖檢測單個句子中提到的實體的局部類型,而相同的實體在不同的句子中可能具有不同的類型。我們的工作重點是句子級的實體類型。
4.KNET
- 我們利用TransE來檢查將KB的關系信息合并到實體類型中的有效性。
- 目的:給定一個句子,其中包含一個提到的實體及其上下文,以及一組實體類型(分類法)T,我們的模型旨在預測該實體提到的每種類型的概率。
4.1encoder
特征向量x(輸入),m-mention,c-上下文
- m-各個mention的均值
- 對于mention的embedding計算,就是取各自的embedding然后取平均。這里的embedding都是預訓練的。
- nm—實體mention的個數
- c-上下文
- 雙向lstm的編碼加權(attention)和
4.2類型預測
- 多層感知機得到y(各個類型下的概率)
- >0.5為正,沒有大于0.5則取最大的
- 目標函數/loss(交叉熵)
4.3attention
-
ali,aria_{l_i},a_{r_i}ali??,ari??
-
1)Semantic attention:簡單地將上下文表示本身作為注意查詢,這是由(Shimaoka et al. 2017)提出的,將作為我們的基線方法
- MLP(多層感知機)
- l,r的計算相同
- 所有實體共享
- 2獨立于1
- 我們注意到,所有實體共享用于計算SA的相同MLP。因此,上下文詞語的注意是獨立于實體的。因此,SA很難關注那些與相應實體高度相關的上下文詞。
-
2)mention attention:將實體提表示m作為注意查詢,期望獲取實體與上下文信息之間的語義關聯
- f是二次方程x2x^2x2,正定且可微
-
3)knowledge attention:將從外部KBs中學習到的實體表示形式作為注意查詢,獲取實體-上下文和實體-知識庫的語義關聯。
- 用TransE,將關系嵌入到實體embedding中
- 這里的e是上面mention中的相關實體–m的embedding,Wka是雙線性參數
- aiKA=f(eWKA[hi→hi←])a_i^{KA}=f(eW_{KA}\left[\begin{matrix}\overrightarrow{h_i}\\\overleftarrow{h_i}\end{matrix}\right])aiKA?=f(eWKA?[hi??hi???])
- 在測試中的knowledge attention:不知道KB與mention的哪個實體有對應,甚至可能是out-KB—用文本信息重建實體embedding(單向lstm)(測試時,不知道上面的e,上面的e是直接從KB得到的,這里需要重新構建)(也可以通過實體鏈接解決,但實體鏈接本身就不容易)
- e^=tanh(W[mclcr])\hat{e}=tanh\left(W\left[\begin{matrix}m\\c_l\\c_r\end{matrix}\right]\right)e^=tanh???W???mcl?cr????????
- 在訓練時,我們同時學習e^\hat{e}e^通過損失函數
- JKB(θ)=?Σ∣∣e?e^∣∣2J_{KB}(\theta)=-\Sigma||e-\hat{e}||^2JKB?(θ)=?Σ∣∣e?e^∣∣2
-
knowledge attention (帶消歧的)(KA+D)
- 通過獲得的mention的表面名稱來減少候選實體
- 想要確定mention到底對應實體的哪一個
- :(1)我們通過匹配實體的表面名稱來構建候選實體列表
KBs和實體mention。 - (2)計算text-reconstructed嵌入e?和在KBs候選實體表示之間的L2距離,并選擇最小距離的候選實體
- 如果KB中沒有正確的實體(足夠信任)就用近似值
- :(1)我們通過匹配實體的表面名稱來構建候選實體列表
5.實驗
-
衡量:Micro-F1
-
(Shimaoka et al. 2017)之后,我們使用來自(Pennington, Socher, and Manning 2014)的預先訓練好的詞嵌入。
-
我們使用Adam Optimizer (Kingma and Ba 2014)和
-
mini-batch of size B進行參數優化。
-
我們還使用TransE from (Lin et al. 2015)的實現來獲得實體嵌入。
-
overfittiong:在mention上用dropout
-
因為訓練集合和測試集的mention不同,測試集合mention不可見,而上下文并沒有什么區別
-
超參數的確定–對這些在一定范圍內實驗確定
- 學習率
- lstm隱藏層尺寸
- 詞向量size
- 窗口尺寸L
- batch size B
-
結果
- MA>SA:注意力有好處
- 所有神經網絡模型都比AFET好(AFET用了KB但沒有用關系)
- KA和KA+D最好,表明引入KB的有用性
- KA+D>KA:消除歧義有用
- KB-only<KA<KA+D:他不可單獨工作
-
消歧的困難
- 在KA+D中,對In - kb實體的消歧取決于不同的上下文環境。上下文要么提供關于實體屬性的豐富而有用的信息,要么幾乎不包含任何有用的提示。另一方面,消除kb外實體的歧義無疑是錯誤的。根據消歧過程是否正確,我們將測試集分為正確和錯誤兩個子集,并探討了各種方法的性能。
- 在正確的子集中表現都挺好
- 在錯誤的子集中表現差,但KA+D也還可以
6.以后
- 可以試圖加上其他KRL的方法除了transE
- 我們將在更復雜的實體類型分類(包含更多的類或更深層次結構)中檢查KNET方法的有效性
- 直接使用現有的實體連接工具將不可避免地引入噪聲。在我們的模型中減少這種噪聲并加入實體鏈接將是未來值得探索的有趣的事情
- 現有的關于FET的工作已經使用了許多不同的數據集和分類法(Shimaoka et al. 2017),我們也將在各種數據集上進一步探索我們的模型
總結
以上是生活随笔為你收集整理的论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: finetune与Bert
- 下一篇: 基于位置的知识图谱链接预测