日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

發布時間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 多内容实体和关系联合抽取的对抗训练 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

鏈接:https://arxiv.org/pdf/1808.06876.pdf


動機

Szegedy 在 14 年發現,對于圖像分類問題的神經網絡,若是在輸入中人為的添加很小尺度的擾動,會讓已經訓練好的神經網絡做出錯誤的判斷,并且可能以很高的置信度輸出。很多人將這個性質的原因歸結為深層神經網絡的?度?線性以及過擬合。Goodfellow則給出了不同的看法。他認為即使是線性模型,也有這種現象。在高維空間中,即使是很小的擾動,也會對最終的輸出值產生很大的影響。?對于神經?絡?言,很多神經網絡為了節省計算上的代價,都被設計成了線性的形式,這使得他們更容易優化,但是這樣"廉價"的?絡也導致了對于對抗擾動的脆弱性。除了生成對抗樣本來攻擊神經?絡以外,對抗訓練神經網絡從?有效防?對抗樣本的攻擊也是?一個值得考慮的問題。之后大家開始嘗試將對抗訓練(AT)用于 NLP 領域,如文本分類問題。本文嘗試將AT加入到實體識別和關系抽取的聯合模型中,觀察AT對聯合模型的效果。


亮點

文章的亮點主要包括:

1)提出了命名實體識別和關系抽取的聯合模型,可以同時識別實體和實體間的關系,并且對于實體間存在的多關系也可以一次性提取出來;

2)在訓練過程中添加了對抗訓練(AT),提升聯合模型的魯棒性和范性。


相關工作

一.實體和關系抽取的聯合模型:

最初的聯合模型是基于人工提取的特征,用于同時執行命名實體識別和關系提取子任務。這些方法依賴于NLP工具(例如POS標記器)的可用性,或者手工設計的特性,會導致額外的復雜性。之后神經網絡的方法用來克服這一特征設計問題,通常涉及到RNNs和CNNs。特別是,Miwa和Bansal以及Li等人將雙向樹狀結構的RNNs應用于不同的上下文以捕獲語法信息(使用外部依賴分析器)。Gupta等人則使用各種手工提取的特性應用到RNNs中。Adel提出了解決簡單問題的實體分類(EC,假設給出實體邊界),與NER不同的是,他們復制實體周圍的環境,將實體對喂給關系提取層。Katiyar和Cardie在研究帶 attention 的RNNs時,沒有考慮到關系標簽并不是相互排斥的。最后,Bekoulis等人在聯合模型中使用LSTMs一次只提取一個關系,但增加了NER部分的復雜性。

我們的基準模型支持從相同的輸入同時提取多組關系。然后,我們使用對抗式訓練進一步擴展了這個強大的基線。

?

二.對抗性訓練(AT):

對抗訓練(AT)是通過對訓練數據產?生對抗噪聲來規范分類算法的?一種?手段。它?鼓勵神經?絡對未經修改的例?子和擾動的例子進?正確的分類來實現深層模型,這實際上不僅增強了神經?絡的魯棒性,?且提高了它的普遍性。Szegedy的?章表明將對抗樣本和普通樣本一起訓練模型訓練,可使模型稍微正則化。訓練對抗樣本和平常的訓練樣本數增加不一樣:通常我們通過對數據進?變形來增加數據,這樣變形后的數據是可能出現在測試集?的。?對抗樣本這種數據通常不可能?然地出現在測試集中,但是它們可以揭露出模型的缺陷。

NLP環境中,針對不同的任務,如文本分類、關系提取和詞性標注,AT有幾種不同的變體。AT被認為是一種正則化方法。與其他引入隨機噪聲的正則化方法(dropout,word - dropout)不同,AT產生的擾動是模型容易誤分類的樣本的變體。


模型

文中設計的聯合抽取模型如下:

基本模型從下往上依次為:

(1)輸入層:輸入是一個句子的序列 tokens。我們使用character embeddings來隱式捕獲形態學特征(例如,前綴和后綴),通過一個vector(embedding)表示每個字符,將character embeddings 嵌入到BiLSTM中,以獲得單詞的基于字符的表示。另外也使用預訓練過的word embeddings。

(2)BiLSTM層:word 和character embeddings 連接起來形成最終的token 表示,然后將其輸入到BiLSTM層以提取順序信息。

(3)實體識別層:對于NER任務,我們采用BIO (Beginning,Inside, Outside) 編碼方案。對于實體標記的預測,我們使用:(i) softmax方法進行實體分類(EC)任務(假設給定的實體邊界),或 (ii) CRF方法,這樣我們同時識別每個實體的類型和邊界。在解碼過程中,在softmax設置中,我們貪婪地檢測token的實體類型。雖然獨立的類型分布對于EC任務來說是合理的,但是當相鄰標簽之間有很強的相關性時就不是這樣了。例如,BIO編碼方案在NER任務中強加了幾個約束(例如,B-PER和I-LOC標記不能連續)。基于這種直覺,我們使用線性鏈CRF來完成NER任務。在CRF設置中,對于解碼,我們使用Viterbi算法。在訓練過程中,對于EC (softmax)和NER任務(CRF),我們將交叉熵損失L(NER)最小化。

(4)關系抽取層:實體標簽作為label embeddings輸入到關系提取層,與Bi提取的句子表示一起做關系抽取。其中假設實體類型的知識有助于預測相關實體之間的關系。

以上為完整的基本模型。若是在該聯合模型的輸入層中,針對embedding人為的添加小尺度的擾動η,就可以進行對抗訓練(AT)。具體的η計算過程如下。

對于聯合模型來說,有實體識別和關系抽取的聯合損失函數 Ljoint

接下來生成一個對抗的輸入樣本,通過添加最壞擾動ηadv加入到輸入的embedding中,來最大化損失函數:

對于ηadv直接在神經網絡中求解是比較繁瑣復雜,所以一般取其近似值為:

其中ε為定義的超參數,和輸入層的 word embedding 的維度相關。如 word embedding 100時,ε 可以近似取值為 0.01g 為聯合損失函數在 w 方向的梯度,也正是為了說明添加的擾動對于神經網絡來說是最壞的情況。

之后訓練的輸入為原始和對抗樣本的混合,所以最終求得的損失函數為:

實驗

我們使用 github 代碼基中的代碼,在四個數據集中評估模型。特別地,我們遵循 Miwa Bansal ACE04 數據集定義的 5 倍交叉驗證。對于CoNLL04EC任務(假設給定邊界),我們使用與 Gupta 等人相同的分割。我們還使用10倍交叉驗證對NER任務的模型進行評估,類似于MiwaSasaki在同一數據集中使用的模型。對于荷蘭房地產分類信息DRECdataset,我們使用了Bekoulis等人的訓練測試分割。對于不良藥物事件ADE,我們進行了10倍的交叉驗證,類似于Li等人。為了獲得不受輸入嵌入影響的類似結果,我們使用了之前作品的嵌入。我們在所有的實驗中都采用了早停的方法。我們使用Adam優化器并修復超參數驗證集。選擇縮放參數α的范圍為{ 5 e?2,1e?21 e?31 e?4 }。更大的α值在我們早期的實驗導致一致的性能降低。這可以從一個事實來解釋,添加更多的噪音可以改變句子的內容,改變的詞向量的語義。

我們使用三種類型的評估,:1S(trict):如果實體邊界和實體類型都是正確的,則我們將實體得分為正確(ACE04,ADE, CoNLL04, DREC);(2B(oundaries):如果只有實體邊界是正確的,而不考慮實體類型,則我們將實體得分為正確(DREC);(3R(elaxed):如果將至少一種正確的類型分配給組成該實體的tokens(假設邊界已知),則認為multi-token實體分類是正確的。在所有情況下,當關系類型和參數實體都正確時,關系被認為是正確的。實驗結果表明我們的聯合模型取得了當前最好的效果。

另外當有AT加入到輸入層時,可以讓訓練更快速度的達到收斂。

總結????????????????????????

本文執行一個大規模的實驗研究在這個聯合模型任務上,使用了不同的語境和語言的數據集。建立了一個強大的基線,它的性能優于所有以前的模型;而且模型依賴于自動提取的特性,實現了最先進的性能。另外與基線模型相比,在訓練過程中應用AT可以讓聯合抽取的效果持續增加。

?

論文筆記整理:余海陽,浙江大學碩士,研究方向為知識圖譜、自然語言處理。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。

?

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 多内容实体和关系联合抽取的对抗训练的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。