日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

發(fā)布時間:2024/7/5 ChatGpt 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者 | 葉宏彬,浙江大學博士研究生,研究方向:知識圖譜、自然語言處理

接收會議 | AAAI2021

論文鏈接 | https://arxiv.org/pdf/2009.06207.pdf


摘要

在自然語言處理和知識圖譜領(lǐng)域的信息提取中,三元組抽取是必不可少的任務(wù)。在本文中,我們將重新審視用于序列生成的端到端三元組抽取任務(wù)。由于生成三元組抽取可能難以捕獲長期依賴關(guān)系并生成不忠實的三元組,因此我們引入了一種新的模型,即使用生成式Transformer的對比學習三元組抽取框架。

具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產(chǎn)生忠實的結(jié)果,我們提出了一種新穎的三元組對比學習訓練框架。此外,我們引入了兩種機制來進一步改善模型的性能(即,分批動態(tài)注意掩碼和三元組校準)。在三個數(shù)據(jù)集(NYT,WebNLG和MIE)上的實驗結(jié)果表明,我們的方法比基線具有更好的性能。我們的代碼和數(shù)據(jù)集將在論文出版后發(fā)布。

論文動機

編碼器-解碼器模型是功能強大的工具,已在許多NLP任務(wù)中獲得成功,但是現(xiàn)有方法仍然存在兩個關(guān)鍵問題。首先,由于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的固有缺陷,它們無法捕獲長期依賴關(guān)系,從而導致重要信息的丟失,否則將在句子中反映出來,從而導致模型無法應(yīng)用更長的文本。第二,缺乏工作致力于生成忠實的三元組,序列到序列的體系結(jié)構(gòu)會產(chǎn)生不忠實的序列,從而產(chǎn)生意義上的矛盾。例如,給定句子“美國總統(tǒng)特朗普在紐約市皇后區(qū)長大,并居住在那里直到13歲”,該模型可以生成事實“(特朗普出生于皇后區(qū))”。盡管從邏輯上講是正確的,但我們無法從給定的句子中找到直接的證據(jù)來支持它。

為了解決這些問題,我們引入了帶有生成變壓器(CGT)的對比學習三元組提取框架,該框架是一個共享的Transformer模塊,支持編碼器-解碼器的生成式三元組對比學習多任務(wù)學習。首先,我們使用分隔符和部分因果掩碼機制將輸入序列與目標序列連接起來,以區(qū)分編碼器-解碼器表示形式。除了預(yù)先訓練的模型之外,我們的模型不需要任何其他參數(shù)。然后,我們介紹了一種新穎的三元組對比學習對象,該對象利用真實的三元組作為正實例,并利用隨機令牌采樣將損壞的三元組構(gòu)造為負實例。為了共同優(yōu)化三元組生成對象和對比學習對象,我們引入了分批動態(tài)注意掩碼機制,該機制允許我們動態(tài)選擇不同的對象并共同優(yōu)化任務(wù)。最后,我們介紹了一種新穎的三元組校準算法,以在推理階段濾除虛假三元組。

這項工作的貢獻如下:

  • 我們將三元組提取作為序列生成任務(wù)進行了重新介紹,并引入了一種新穎的CGT模型。考慮到增加的提取功能,CGT除了在預(yù)訓練語言模型中發(fā)現(xiàn)的參數(shù)外,不需要其他參數(shù)。

  • 我們引入了兩種機制來進一步提高模型性能(即,批處理動態(tài)注意掩碼和三元組校準)。第一個可以聯(lián)合優(yōu)化不同的對象,第二個可以確保忠實的推理。

  • 我們在三個基準數(shù)據(jù)集上評估了CGT。我們的模型優(yōu)于其他強大的基準模型。我們還證明,在捕獲長期依存關(guān)系方面,CGT比現(xiàn)有的三元組抽取方法更好,因此,在使用長句子場景下依然可以獲得更好的性能。

模型框架

這里我們展示了CGT生成式Transformer的總體架構(gòu)。右上部分表示Transformer生成模塊,右下部分表示三元組對比學習模塊。這兩個部分訓練時共同優(yōu)化。生成模塊依靠部分因果掩碼機制建模成序列生成任務(wù),如右圖中的示例所示,對于三元組序列生成,其中右上部分設(shè)置為-∞以阻止從源段到目標段的關(guān)注;左側(cè)部分設(shè)置為全0,表示令牌能夠參與第一段。利用交叉熵損失生成來優(yōu)化三元組生成過程,獲得生成損失。對比學習模塊將輸入文本與正確的三元組實例或者偽造的三元組進行隨機拼接,依靠部分因果掩碼機制建模成文本分類任務(wù),其中mask矩陣的元素全為0,利用經(jīng)過MLP多層感知機層的特殊token[CLS]表示來計算分類打分函數(shù),鑒別是否為正確實例,從而增強模型對關(guān)鍵token的感知能力。我們利用交叉熵優(yōu)化對比損失。生成損失與對比學習損失通過一個超參數(shù)權(quán)衡構(gòu)成了我們最終的總體損失。我們的解碼推理采用的是波束搜索和啟發(fā)式約束。

?

實驗結(jié)果

我們對三個基準數(shù)據(jù)集進行了實驗:紐約時報(NYT),WebNLG和MIE。MIE是醫(yī)學領(lǐng)域的大規(guī)模中文對話信息提取數(shù)據(jù)集。圖2中中顯示了這三個數(shù)據(jù)集的部分實驗統(tǒng)計信息。


? ?

浙江大學知識引擎實驗室

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。