當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

發布時間：2024/7/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 多内容实体和关系联合抽取的对抗训练小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

鏈接：https://arxiv.org/pdf/1808.06876.pdf

動機

Szegedy 在 14 年發現，對于圖像分類問題的神經網絡，若是在輸入中人為的添加很小尺度的擾動，會讓已經訓練好的神經網絡做出錯誤的判斷，并且可能以很高的置信度輸出。很多人將這個性質的原因歸結為深層神經網絡的?度?線性以及過擬合。Goodfellow則給出了不同的看法。他認為即使是線性模型，也有這種現象。在高維空間中，即使是很小的擾動，也會對最終的輸出值產生很大的影響。?對于神經?絡?言，很多神經網絡為了節省計算上的代價，都被設計成了線性的形式，這使得他們更容易優化，但是這樣"廉價"的?絡也導致了對于對抗擾動的脆弱性。除了生成對抗樣本來攻擊神經?絡以外，對抗訓練神經網絡從?有效防?對抗樣本的攻擊也是?一個值得考慮的問題。之后大家開始嘗試將對抗訓練（AT）用于 NLP 領域，如文本分類問題。本文嘗試將AT加入到實體識別和關系抽取的聯合模型中，觀察AT對聯合模型的效果。

亮點

文章的亮點主要包括：

（1）提出了命名實體識別和關系抽取的聯合模型，可以同時識別實體和實體間的關系，并且對于實體間存在的多關系也可以一次性提取出來；

（2）在訓練過程中添加了對抗訓練（AT），提升聯合模型的魯棒性和范性。

模型

文中設計的聯合抽取模型如下：

基本模型從下往上依次為：

（1）輸入層：輸入是一個句子的序列 tokens。我們使用character embeddings來隱式捕獲形態學特征（例如，前綴和后綴），通過一個vector(embedding)表示每個字符，將character embeddings 嵌入到BiLSTM中，以獲得單詞的基于字符的表示。另外也使用預訓練過的word embeddings。

（2）BiLSTM層：word 和character embeddings 連接起來形成最終的token 表示，然后將其輸入到BiLSTM層以提取順序信息。

（3）實體識別層：對于NER任務，我們采用BIO (Beginning,Inside, Outside) 編碼方案。對于實體標記的預測，我們使用：(i) softmax方法進行實體分類（EC）任務(假設給定的實體邊界)，或 (ii) CRF方法，這樣我們同時識別每個實體的類型和邊界。在解碼過程中，在softmax設置中，我們貪婪地檢測token的實體類型。雖然獨立的類型分布對于EC任務來說是合理的，但是當相鄰標簽之間有很強的相關性時就不是這樣了。例如，BIO編碼方案在NER任務中強加了幾個約束(例如，B-PER和I-LOC標記不能連續)。基于這種直覺，我們使用線性鏈CRF來完成NER任務。在CRF設置中，對于解碼，我們使用Viterbi算法。在訓練過程中，對于EC (softmax)和NER任務(CRF)，我們將交叉熵損失L(NER)最小化。

（4）關系抽取層：實體標簽作為label embeddings輸入到關系提取層，與Bi提取的句子表示一起做關系抽取。其中假設實體類型的知識有助于預測相關實體之間的關系。

以上為完整的基本模型。若是在該聯合模型的輸入層中，針對embedding人為的添加小尺度的擾動η，就可以進行對抗訓練（AT）。具體的η計算過程如下。

對于聯合模型來說，有實體識別和關系抽取的聯合損失函數 L_joint：

接下來生成一個對抗的輸入樣本，通過添加最壞擾動η_adv加入到輸入的embedding中，來最大化損失函數：

對于η_adv直接在神經網絡中求解是比較繁瑣復雜，所以一般取其近似值為：

其中ε為定義的超參數，和輸入層的 word embedding 的維度相關。如 word embedding 為100時，ε 可以近似取值為 0.01。g 為聯合損失函數在 w 方向的梯度，也正是為了說明添加的擾動對于神經網絡來說是最壞的情況。

之后訓練的輸入為原始和對抗樣本的混合，所以最終求得的損失函數為：

實驗

我們使用 github 代碼基中的代碼，在四個數據集中評估模型。特別地，我們遵循 Miwa 和 Bansal 為 ACE04 數據集定義的 5 倍交叉驗證。對于CoNLL04EC任務(假設給定邊界)，我們使用與 Gupta 等人相同的分割。我們還使用10倍交叉驗證對NER任務的模型進行評估，類似于Miwa和Sasaki在同一數據集中使用的模型。對于荷蘭房地產分類信息DRECdataset，我們使用了Bekoulis等人的訓練測試分割。對于不良藥物事件ADE，我們進行了10倍的交叉驗證，類似于Li等人。為了獲得不受輸入嵌入影響的類似結果，我們使用了之前作品的嵌入。我們在所有的實驗中都采用了早停的方法。我們使用Adam優化器并修復超參數驗證集。選擇縮放參數α的范圍為{ 5 e?2,1e?2、1 e?3、1 e?4 }。更大的α值在我們早期的實驗導致一致的性能降低。這可以從一個事實來解釋，添加更多的噪音可以改變句子的內容，改變的詞向量的語義。

我們使用三種類型的評估,即:（1）S(trict)：如果實體邊界和實體類型都是正確的，則我們將實體得分為正確（ACE04,ADE, CoNLL04, DREC）；（2）B(oundaries)：如果只有實體邊界是正確的，而不考慮實體類型，則我們將實體得分為正確(DREC)；（3）R(elaxed)：如果將至少一種正確的類型分配給組成該實體的tokens（假設邊界已知），則認為multi-token實體分類是正確的。在所有情況下，當關系類型和參數實體都正確時，關系被認為是正確的。實驗結果表明我們的聯合模型取得了當前最好的效果。

另外當有AT加入到輸入層時，可以讓訓練更快速度的達到收斂。

總結????????????????????????

本文執行一個大規模的實驗研究在這個聯合模型任務上，使用了不同的語境和語言的數據集。建立了一個強大的基線，它的性能優于所有以前的模型；而且模型依賴于自動提取的特性，實現了最先進的性能。另外與基線模型相比，在訓練過程中應用AT可以讓聯合抽取的效果持續增加。

論文筆記整理：余海陽，浙江大學碩士，研究方向為知識圖譜、自然語言處理。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

轉載須知：轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題，請注明原標題。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 多内容实体和关系联合抽取的对抗训练的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - SIAM ICDM 202
下一篇：如何选择一家公司

编程问答

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

動機

亮點

相關工作

模型

實驗

另外當有AT加入到輸入層時，可以讓訓練更快速度的達到收斂。

總結????????????????????????

總結