SSAN 关系抽取 论文笔记
20210621
https://zhuanlan.zhihu.com/p/353183322
[KG筆記]八、文檔級(jí)(Document Level)關(guān)系抽取任務(wù)
共指id嵌入一樣
但是實(shí)體嵌入的時(shí)候 可能是不同的表述 所以取上述的方式
- 抽取全局信息
我們通常可以把句子內(nèi)部(intra-sentence)的特征信息稱之為局部特征,而把跨句子(inter-sentence)的、篇章級(jí)的特征信息稱之為全局信息。
對(duì)于局部信息的抽取基本等同于句子級(jí)別關(guān)系抽取的encoding model,比如可以使用Word2Vec/ GloVe+Bi-LSTM,BERT等。可以得到與token序列等長(zhǎng)的特征序列。
在編碼方面,現(xiàn)在的方法基本比較統(tǒng)一:使用GloVe或BERT得到token level embedding,使用可訓(xùn)練權(quán)重對(duì)token的類別(實(shí)體類別,無類別等)進(jìn)行映射得到type embedding,使用可訓(xùn)練權(quán)重對(duì)相對(duì)位置映射得到relative position embedding。總體上來說token level的信息源就是自身語義、類型及相對(duì)位置信息。
由于sigmoid輸出存在一個(gè)閾值選擇的問題,文獻(xiàn)[14]使用了一種特殊的任務(wù)構(gòu)建方式實(shí)現(xiàn)了sigmoid輸出層的自適應(yīng)閾值。
^ Zhou W, Huang K, Ma T, et al. Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling[J]. arXiv preprint arXiv:2010.11304, 2020.
Relation Fact Alignment 問題
消息傳播(Message Passing)就是每個(gè)節(jié)點(diǎn)的鄰居所攜帶的信息通過一定的規(guī)則傳播的該節(jié)點(diǎn)上。
依存關(guān)系分析,又稱依存句法分析(dependency syntactic parsing),簡(jiǎn)稱依存分析(denpendency parsing),作用是識(shí)別句子中詞與詞之間的相互依存關(guān)系。
依存關(guān)系用一個(gè)有向弧表示,叫做依存弧。依存弧的方向?yàn)橛蓮膶僭~指向支配詞
https://zhuanlan.zhihu.com/p/369851456
本文主要是復(fù)現(xiàn)論文《Named Entity Recognition as Dependency Parsing》
重點(diǎn)
- 實(shí)體構(gòu)造
考慮以下兩種結(jié)構(gòu)
共現(xiàn)結(jié)構(gòu): 兩個(gè)詞是否在同一個(gè)句子中
共指結(jié)構(gòu): 兩個(gè)提及是否指向同一個(gè)實(shí)體
這兩種結(jié)構(gòu)都可以TRUE FALSE來描述
對(duì)于共現(xiàn)結(jié)構(gòu),我們將文檔分割成句子,并將它們作為顯示提及交互的最小單元。我們分別表示它們是內(nèi)部的和句子間的。
在共指結(jié)構(gòu)中,“True”表示兩種提及指的是同一個(gè)實(shí)體,因此需要一起進(jìn)行研究和推理;“False”意味著在某些謂詞下可能相互關(guān)聯(lián)的一對(duì)不同的實(shí)體。
我們將它們分別表示為coref和relate。
綜上所述,這兩種結(jié)構(gòu)是相互正交的,導(dǎo)致了四種不同的無向依賴關(guān)系,如表1所示。
除了提及之間的依賴關(guān)系之外,我們進(jìn)一步考慮實(shí)體提及與其句子內(nèi)非實(shí)體詞之間的另一種依賴關(guān)系。我們稱它為intraNE。
對(duì)于其他句子間的非實(shí)體詞,我們假設(shè)不存在關(guān)鍵依賴關(guān)系,并將其歸類為NA。
因此,整個(gè)結(jié)構(gòu)被表述為一個(gè)以實(shí)體為中心的鄰接矩陣,其所有元素來自一個(gè)有限依賴集: (問題 鄰接矩陣中的元素不是0,1嗎 怎么這里有幾種狀態(tài))
{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA}
- SSAN
SSAN繼承了Transformer 編碼器的架構(gòu),它是一堆相同的塊,用前饋網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)和層歸一化包裹起來。作為其核心組成部分,我們提出了帶有兩個(gè)可選的轉(zhuǎn)換模塊的結(jié)構(gòu)化的自我注意機(jī)制。
(這里的結(jié)構(gòu)性是指 規(guī)定的幾種實(shí)體減的關(guān)系類別)
基于這些輸入和實(shí)體結(jié)構(gòu),我們計(jì)算非結(jié)構(gòu)化注意分?jǐn)?shù)和結(jié)構(gòu)化注意偏向,然后將它們聚合在一起來指導(dǎo)最終的自我注意流。
非結(jié)構(gòu)化注意分?jǐn)?shù)是由Q-K在標(biāo)準(zhǔn)自注意力產(chǎn)生。
使用一個(gè)額外的模塊,建模Q-K之間的結(jié)構(gòu)性依賴。
這里的transformation 是什么意思 下面有解釋
公式中,這三項(xiàng)分別代表:
基于Q向量的偏差
基于K向量的偏差
早期偏差
結(jié)構(gòu)化自注意力的整體計(jì)算公式為:
根據(jù)上下文,由于Transformation層自適應(yīng)地對(duì)結(jié)構(gòu)性依賴進(jìn)行建模,我們不會(huì)在不同的層或不同的注意頭之間共享它們。
早期,Transformer提出輸入token對(duì)的相對(duì)位置信息模型。
他們首先將相對(duì)距離映射到embedding中,然后將它們與K向量相加,然后計(jì)算注意力得分。
從技術(shù)上講,這種設(shè)計(jì)可以看作是我們所分解的線性變換的簡(jiǎn)化版本,只包含查詢條件偏差。
- SSAN for Relation Extraction
該模型以文檔文本為輸入,在整個(gè)編碼階段的實(shí)體結(jié)構(gòu)指導(dǎo)下構(gòu)建其上下文表示。
模型用交叉熵?fù)p失訓(xùn)練模型。
我們形式化實(shí)體結(jié)構(gòu)的文檔級(jí)關(guān)系提取。在此基礎(chǔ)上,我們提出了SSAN來有效地整合這些結(jié)構(gòu)先驗(yàn),同時(shí)交互式地執(zhí)行實(shí)體的上下文推理和結(jié)構(gòu)推理。
在三個(gè)數(shù)據(jù)集上的性能驗(yàn)證了實(shí)體結(jié)構(gòu)的有效性和SSAN模型的有效性。
https://blog.csdn.net/li_jiaoyang/article/details/113975711
【論文閱讀】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation
總結(jié)
以上是生活随笔為你收集整理的SSAN 关系抽取 论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: docred数据集情况笔记
- 下一篇: 详细通俗重点CRF层讲解