當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

發(fā)布時(shí)間：2024/7/5 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：譚亦鳴，東南大學(xué)博士生，研究方向?yàn)榭缯Z言知識(shí)圖譜問答。

來源：NAACL2019

鏈接：https://arxiv.org/pdf/1904.02342.pdf

??? 本文關(guān)注如何從信息抽取結(jié)果（特別是知識(shí)圖譜）出發(fā)，生成連貫的多句文本。作者表示圖譜化的知識(shí)表示在計(jì)算中普遍存在，但由于其非層次，長(zhǎng)距離依賴，結(jié)構(gòu)多樣等特性，使得基于圖譜的文本生成成為一個(gè)巨大的挑戰(zhàn)。

動(dòng)機(jī)

為了擺脫圖譜表示學(xué)習(xí)過程需要添加的線性/層次約束，有效利用起圖譜中的關(guān)系結(jié)構(gòu)，作者提出一種新的Graph Transformer編碼器。

貢獻(xiàn)

1.????提出了一種Graph Transformer編碼方法用于知識(shí)圖譜表示學(xué)習(xí)

2.????提出一種將IE輸出轉(zhuǎn)換為圖結(jié)構(gòu)用于編碼的過程

3.????構(gòu)建了一個(gè)可復(fù)用的大型“圖譜-文本”對(duì)數(shù)據(jù)集

方法

Graph Transformer

????? 預(yù)先準(zhǔn)備為了進(jìn)行編碼，作者將圖譜重構(gòu)為一種無標(biāo)注的連接圖，實(shí)體和關(guān)系都為圖中的節(jié)點(diǎn)，下圖左為一般的知識(shí)圖譜三元組形式，右邊為重構(gòu)的圖結(jié)構(gòu)。可以看到，每個(gè)三元組都被替換為兩個(gè)“實(shí)體->關(guān)系/關(guān)系->實(shí)體”的有向圖，同時(shí)為了保留未連接實(shí)體之間的信息流（information flow），作者設(shè)置了一個(gè)全局結(jié)點(diǎn)G指向所有的實(shí)體節(jié)點(diǎn)。

?????? 最終得到的是一個(gè)全連接，無標(biāo)注的圖G = (V, E)，其中V表示圖中所有節(jié)點(diǎn)的列表（實(shí)體，關(guān)系，全局節(jié)點(diǎn)），E則是表示圖中各條邊的方向的鄰接矩陣。

???????????

Transformer 模型本文模型與圖注意力網(wǎng)絡(luò)（GAT）的思路相近，利用注意力機(jī)制，將相鄰節(jié)點(diǎn)的信息用于生成目標(biāo)節(jié)點(diǎn)的隱狀態(tài)表示。但是GAT模型僅考慮圖譜中已出現(xiàn)相鄰節(jié)點(diǎn)的信息，本文提出的全局節(jié)點(diǎn)設(shè)定使得模型能夠利用更為全局的信息（可能存在的實(shí)體關(guān)聯(lián)，但并未出現(xiàn)在知識(shí)子圖中的潛在信息）

下圖是graph transformer模型的框架圖，結(jié)構(gòu)上與普遍使用的transformer模型并無明顯區(qū)別，本文不再贅述。

??????????? Graph Attention的計(jì)算由各head的輸入加權(quán)拼接實(shí)現(xiàn)，過程如下：

End2End 文本生成模型

????? End2End 文本生成整體上還是由編碼和解碼兩個(gè)部分構(gòu)成（如下圖），其中，編碼結(jié)果由兩個(gè)編碼輸入整合得到，分別為圖譜編碼（來自 graph transformer）與主題/標(biāo)題（Title）編碼（來自biRNN）。個(gè)人理解，主題編碼的目的是給多句文本的生成提供一個(gè)順序指導(dǎo)，假設(shè)多句連貫文本本質(zhì)上是一條一套三元組構(gòu)成的路徑，主題編碼則是表示路徑的起點(diǎn)，以及生成過程必須經(jīng)過的某些節(jié)點(diǎn)。

??????? 解碼部分則是由一個(gè)單向的RNN構(gòu)成，生成序列的過程除了從詞表中選詞的softmax方式外，還添加了復(fù)制機(jī)制，這一做法可以避免低置信度文本生成（以及OOV情況）。

實(shí)驗(yàn)

數(shù)據(jù)說明：

本文實(shí)驗(yàn)所使用的訓(xùn)練數(shù)據(jù)來自AGENDA（Abstract Generation Dataset，摘要生成數(shù)據(jù)集，科技論文領(lǐng)域），作者利用SciIE信息抽取系統(tǒng)，將摘要中的實(shí)體/關(guān)系識(shí)別出來，作為節(jié)點(diǎn)構(gòu)建知識(shí)圖譜，過程如下圖所示。

AGENDA數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)參數(shù)如下圖所示，作者將數(shù)據(jù)集切分為38720規(guī)模的訓(xùn)練集，1000驗(yàn)證集與1000測(cè)試集

實(shí)驗(yàn)方案：

作者考慮了人工評(píng)價(jià)與自動(dòng)評(píng)價(jià)兩種評(píng)測(cè)機(jī)制，自動(dòng)評(píng)價(jià)方法選擇了常見的BLEU與METEOR，用于反映生成文本相對(duì)參考文本的n元文法相似程度，對(duì)比系統(tǒng)與結(jié)果如下表所示。

人工評(píng)價(jià)方面，則通過投票，對(duì)候選系統(tǒng)的輸出結(jié)果進(jìn)行投票，可以看到本文方法在best評(píng)價(jià)的獲取數(shù)量是Rewriter（未引入知識(shí)圖譜的方法）的兩倍，可以說，圖譜化的知識(shí)相對(duì)非結(jié)構(gòu)化文本提供了更清晰的知識(shí)結(jié)構(gòu)。

??????? 更為直觀的是一些生成樣例，如下圖所示：

思考

??? 本文使用的圖譜由文本中的信息抽取構(gòu)造而成，并不是對(duì)現(xiàn)有知識(shí)圖譜的應(yīng)用，這一做法避免了圖譜中實(shí)體/關(guān)系節(jié)點(diǎn)表示形式與自然語言表達(dá)差異性帶來的影響，是一種“文本->圖譜->文本”的過程，圖譜中節(jié)點(diǎn)的表達(dá)都明顯傾向自然語言。換言之，這種圖譜結(jié)構(gòu)的穩(wěn)定性（歧義性）是需要討論的，此外，本方法直接用于已有圖譜（如DBpedia，YAGO）到文本的生成，則需要解決實(shí)體關(guān)系描述傾向非自然語言的情況。

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - JWS2020 | FEE
下一篇：论文浅尝 - ACL2021 | 探讨跨

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

總結(jié)