當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...

發(fā)布時(shí)間：2024/7/5 ChatGpt 64 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

會(huì)議：AAAI2020
論文鏈接：https://arxiv.org/pdf/1909.05311.pdf

摘要

常識(shí)問答旨在回答需要背景知識(shí)的問題，而背景知識(shí)并未在問題中明確表達(dá)。關(guān)鍵的挑戰(zhàn)是如何從外部知識(shí)中獲取證據(jù)并根據(jù)證據(jù)做出預(yù)測(cè)。最近的研究要么從昂貴的人類注釋中生成證據(jù)，要么從結(jié)構(gòu)化或非結(jié)構(gòu)化知識(shí)庫(kù)中提取證據(jù)，而這些無(wú)法同時(shí)利用這兩種資源。在這項(xiàng)工作中，建議自動(dòng)從異構(gòu)知識(shí)源中提取證據(jù)，并根據(jù)提取的證據(jù)回答問題。具體來(lái)說(shuō)，從結(jié)構(gòu)化知識(shí)庫(kù)（即ConceptNet）和Wikipedia純文本中提取證據(jù)。為這兩種來(lái)源的數(shù)據(jù)構(gòu)造圖以獲得證據(jù)的關(guān)系結(jié)構(gòu)。基于這些圖，提出了一種基于圖的方法，該方法包括基于圖的上下文單詞表示學(xué)習(xí)模塊和基于圖的推理模塊。第一個(gè)模塊利用圖形結(jié)構(gòu)信息來(lái)重新定義單詞之間的距離，以學(xué)習(xí)更好的上下文單詞表示形式。第二個(gè)模塊采用圖卷積網(wǎng)絡(luò)將鄰居信息編碼為節(jié)點(diǎn)表示形式，并通過(guò)圖注意力機(jī)制匯總證據(jù)以預(yù)測(cè)最終答案。CommonsenseQA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，對(duì)兩種知識(shí)源的基于圖的方法在強(qiáng)基準(zhǔn)上帶來(lái)了改進(jìn)。此方法在CommonsenseQA數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確性（75.3％）。

介紹

在人工智能和自然語(yǔ)言處理中，推理是一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)，這是“從原理和證據(jù)中得出結(jié)論的過(guò)程”。“證據(jù)”是燃料，“原理”是依靠燃料運(yùn)行以進(jìn)行預(yù)測(cè)的機(jī)器。大多數(shù)研究只將當(dāng)前的數(shù)據(jù)點(diǎn)作為輸入，忽略了背景知識(shí)中的重要證據(jù)。這篇文章研究的是常識(shí)問答，收集背景知識(shí)并使用這些知識(shí)推理出問題的答案。對(duì)于常識(shí)推理問題，常見的解決方案有
(1)根據(jù)人工標(biāo)注的證據(jù)生成新的解釋。
(2)從ConceptNet中獲取結(jié)構(gòu)化的知識(shí)。
(3)從Wikipedia獲取相關(guān)文本知識(shí)。
從ConceptNet中獲取的結(jié)構(gòu)化的知識(shí)，包含著不同概念之間的關(guān)聯(lián)信息，有助于機(jī)器進(jìn)行推理，但覆蓋率較低。純文本數(shù)據(jù)可以提供高覆蓋率的證據(jù)解釋，可以形成對(duì)結(jié)構(gòu)化知識(shí)的補(bǔ)充，目前的方法中都只針對(duì)同一種的知識(shí)來(lái)源，不能同時(shí)利用兩種知識(shí)。

基于這種目的，本文提出從異質(zhì)的外部知識(shí)庫(kù)中自動(dòng)收集證據(jù)，并基于這些證據(jù)實(shí)現(xiàn)常識(shí)知識(shí)問答。

方法

方法概述

方法可分為兩部分：1）知識(shí)抽取；2）基于圖的推理

(1)在知識(shí)抽取部分，自動(dòng)地從ConceptNet抽取出圖路徑，并且從Wikipedia中抽取出相關(guān)的句子。利用兩個(gè)源的關(guān)系結(jié)構(gòu)，構(gòu)建成圖。(2)在基于圖推理部分，提出了兩個(gè)基于圖的推理模塊：基于圖的上下文單詞表示學(xué)習(xí)模塊，和基于圖的推理模塊。方法概覽如下圖所示：

知識(shí)抽取

根據(jù)給定的問題和選項(xiàng)，使用本文的方法從ConceptNet和Wikipedia中獲取相應(yīng)的證據(jù)。

從ConceptNet抽取出結(jié)構(gòu)化知識(shí)：
ConceptNet是一個(gè)大規(guī)模的常識(shí)知識(shí)庫(kù)，有百萬(wàn)級(jí)的節(jié)點(diǎn)和邊，ConceptNet中的三元組包含四個(gè)部分，兩個(gè)節(jié)點(diǎn)、一個(gè)關(guān)系和一個(gè)關(guān)系權(quán)重，對(duì)于每個(gè)問題和選項(xiàng)，首先在給定的ConceptNet中確定對(duì)應(yīng)的實(shí)體，然后搜索從問題實(shí)體到選項(xiàng)實(shí)體的路徑（路徑少于三次），并且將三元組合并成一個(gè)圖，其中節(jié)點(diǎn)為三元組，邊為三元組之間的關(guān)系。并且規(guī)定如果兩個(gè)三元組有相同的實(shí)體，則為兩個(gè)三元組添加連邊。將組合成的圖稱之為Concept-Graph。并且根據(jù)ConceptNet中的關(guān)系模板，將三元組轉(zhuǎn)換成自然語(yǔ)言文本。

從Wikipedia中抽取文本知識(shí)：
使用Spacy從Wikipedia中抽取了1.07億條句子，并且使用Elastic Search tools為句子建立索引。首先對(duì)問題和選項(xiàng)進(jìn)行預(yù)處理，刪除給定問題和選項(xiàng)中的停用詞，然后將這些詞連接起來(lái)作為queries，在Elastic Search engine中進(jìn)行搜索，這個(gè)引擎會(huì)根據(jù)queries和所有Wikipedia的句子進(jìn)行匹配得分進(jìn)行排序，選取topK個(gè)句子作為證據(jù)（實(shí)驗(yàn)中K取10）。為了獲取Wikipedia證據(jù)中的結(jié)構(gòu)信息，利用語(yǔ)義角色標(biāo)注（SRL）為句子中每個(gè)謂詞提取對(duì)應(yīng)的要素（主語(yǔ)、賓語(yǔ)）。將要素和謂詞作為圖中的節(jié)點(diǎn)，謂詞和參數(shù)之間的關(guān)系作為圖的邊，為了增強(qiáng)圖的連通性，去掉停用詞并根據(jù)規(guī)則為節(jié)點(diǎn)a，b間建立聯(lián)系：1）節(jié)點(diǎn)a包含于節(jié)點(diǎn)b，且a中的單詞數(shù)量大于3；2）節(jié)點(diǎn)a和節(jié)點(diǎn)b只有一個(gè)單詞不同，并且a和b的單詞數(shù)量都大于3。將組合成的圖稱之為Wiki-Graph。

基于圖的推理
本文在抽取出的證據(jù)的基礎(chǔ)上，提出了基于圖的推理模型，如下圖所示：

推理模塊由兩個(gè)小模塊組成：1）基于圖的上下文表示學(xué)習(xí)模塊：使用圖信息重新定義單詞間的距離，學(xué)習(xí)到更好的上下文詞的表示；2）基于圖的推理模塊：使用GCN和圖注意力機(jī)制，獲得節(jié)點(diǎn)的表示，用于最終的預(yù)測(cè)。

基于圖的上下文表示學(xué)習(xí)：

由于預(yù)訓(xùn)練模型具有很強(qiáng)的文本理解能力，并且在各種自然語(yǔ)言處理任務(wù)上取得了較好的結(jié)果。本文使用XLNet，具有捕獲遠(yuǎn)距離依賴的優(yōu)勢(shì)。獲得每個(gè)單詞的表示的簡(jiǎn)單方法是將所有的證據(jù)作為單個(gè)序列連接起來(lái)，并且將原始的輸入，輸入到XLNet中，但這將使得在不同證據(jù)中的同一個(gè)詞分配一個(gè)較長(zhǎng)的距離，因此利用圖結(jié)構(gòu)重新定義證據(jù)詞之間的相對(duì)位置，這樣會(huì)使得相關(guān)的詞的相對(duì)位置比較近，獲得更好的上下文的相關(guān)詞表征。具體來(lái)說(shuō)是使用拓?fù)渑判蚋鶕?jù)構(gòu)造的圖結(jié)構(gòu)對(duì)輸入的證據(jù)進(jìn)行重新排序，包括ConceptNet和Wikipedia所抽取出來(lái)的文本。將經(jīng)過(guò)排序后的證據(jù)文本，和問題選項(xiàng)進(jìn)行拼接作為XLNet的輸入。通過(guò)將抽取的圖轉(zhuǎn)換成自然語(yǔ)言文本，實(shí)現(xiàn)了對(duì)兩種異質(zhì)知識(shí)來(lái)源信息的融合。

基于圖的推理模塊：

使用XLNet模型為預(yù)測(cè)提供了詞級(jí)別的信息，此外，圖還可以提供語(yǔ)義級(jí)別的信息，如關(guān)系中的主語(yǔ)、賓語(yǔ)。因此，本文對(duì)圖級(jí)別的證據(jù)進(jìn)行聚合，用作最后的預(yù)測(cè)。使用圖卷積神經(jīng)網(wǎng)絡(luò)，將Concept-Graph和Wiki-Graph進(jìn)行編碼，得到節(jié)點(diǎn)表示。第i個(gè)節(jié)點(diǎn)表示通過(guò)對(duì)XLNet輸出中隱藏狀態(tài)進(jìn)行平均，并通過(guò)非線性變換降維得到。

為實(shí)現(xiàn)基于圖的推理，使用聚合和組合兩個(gè)步驟實(shí)現(xiàn)信息的傳播。從每個(gè)節(jié)點(diǎn)的鄰居聚合信息，針對(duì)第i個(gè)節(jié)點(diǎn)，聚合得到信息。包含了第i個(gè)節(jié)點(diǎn)在第l層的鄰居信息，將其和轉(zhuǎn)換后的第i個(gè)節(jié)點(diǎn)的表示相結(jié)合，得到更新后的節(jié)點(diǎn)表示。

使用圖注意力機(jī)制對(duì)圖信息進(jìn)行進(jìn)一步處理。

最后使用多層感知機(jī)（MLP）計(jì)算置信度分?jǐn)?shù)，將輸入的表示和圖表示拼接起來(lái)作為輸入，候選答案和為問題的真實(shí)答案的概率計(jì)算如下。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置：

數(shù)據(jù)集為CommonsenseQA，包含12102個(gè)例子，9741個(gè)用于訓(xùn)練，1221個(gè)用于驗(yàn)證，1140個(gè)用于測(cè)試。使用XLNet large cased作為預(yù)訓(xùn)練模型。每個(gè)選項(xiàng)的輸入形式為“ questionThe answer is”。實(shí)驗(yàn)結(jié)果如下。

其中，Group 1：不使用描述或papers的模型；Group 2：不使用抽取出的知識(shí)的模型；Group 3：使用抽取出的知識(shí)的模型；Group 4：使用抽取出的非結(jié)構(gòu)化知識(shí)的模型。從實(shí)驗(yàn)結(jié)果可以看出，異質(zhì)外部知識(shí)和基于圖的推理模型幫助本文的模型獲得了顯著的改進(jìn)，取得較好的結(jié)果。

消融實(shí)驗(yàn)：

基于圖推理模塊的有效性。

實(shí)驗(yàn)結(jié)果表明，通過(guò)拓?fù)渑判蚩梢匀诤蠄D結(jié)果蘊(yùn)含的信息，改變?cè)~與詞之間的相對(duì)位置，從而更好的表示詞的上下文信息。

異質(zhì)知識(shí)來(lái)源的有效性。

實(shí)驗(yàn)表明，單獨(dú)結(jié)構(gòu)化的知識(shí)和非結(jié)構(gòu)化的文本都可以帶來(lái)有效的提升，并且將兩個(gè)結(jié)合在一起獲得了更好的性能。

總結(jié)

本文解決的是常識(shí)問答問題。本文提出的方法由知識(shí)抽取和基于圖的推理兩大部分組成。在知識(shí)抽取部分，從異質(zhì)的知識(shí)來(lái)源中抽取出來(lái)證據(jù)信息，并且將其構(gòu)建了圖，并利用了關(guān)系結(jié)構(gòu)信息。在基于圖的推理部分，提出了基于圖的上下文詞表示學(xué)習(xí)模塊，以及基于圖的推斷模塊。第一個(gè)模塊使用了圖結(jié)構(gòu)信息對(duì)單詞間的距離重定義，以學(xué)習(xí)到更好的上下文詞表示。第二個(gè)模塊使用了GCN將鄰居信息編碼到節(jié)點(diǎn)的表示中，然后使用圖注意力機(jī)制進(jìn)行證據(jù)的聚合，用于最終答案的推斷。實(shí)驗(yàn)結(jié)果顯示，本文的模型在CommonsenseQA leaderboard上實(shí)現(xiàn)了state-of-the-art。

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：领域应用 | 美团商品知识图谱的构建及应
下一篇：论文浅尝 | AAAI2020 - 基于

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ChatGpt

论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...

摘要

介紹

方法

方法概述

知識(shí)抽取

基于圖的上下文表示學(xué)習(xí)：

基于圖的推理模塊：

總結(jié)

總結(jié)