日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

最新知识图谱论文清单,就算看不懂也会忍不住收藏

發布時間:2024/10/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 最新知识图谱论文清单,就算看不懂也会忍不住收藏 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


精選 6 篇來自 EMNLP 2018、COLING 2018、ISWC 2018 和 IJCAI 2018 的知識圖譜相關工作,帶你快速了解知識圖譜領域最新研究進展。


本期內容選編自微信公眾號「開放知識圖譜」。


EMNLP 2018




■ 論文解讀 |?張良,東南大學博士,研究方向為知識圖譜、自然語言處理

本文主要關注 KG embedding 中三元組成立的時間有效性問題,比如三元組(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效時間段是 2003 年到 2009 年,這個使三元組有效成立的時間段被稱為 temporal scopes。

這些 temporal scopes 隨著時間的推移對許多數據集會產生影響(比如 YAGO,Wikidata),現有的 KG embedding 方法很少考慮到時間這一維度,因為它們假設所有的三元組總是永遠正確的,可是現實中很多情況下不是這樣。

本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間注釋的事實預測 temporal scopes。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。

研究背景

知識圖譜嵌入(Knowledge graph embedding)方法是將知識圖譜中的實體和關系表示成連續稠密低維實值向量,從而可以通過向量來高效計算實體與關系的語義聯系。從 2013 年 TransE 的提出,到后來一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是對 TransE 模型的擴展。

這些模型都沒有考慮時間維度,一直將知識圖譜當做靜態來處理,這顯然不符合事實。數據的暴漲與更新表明知識圖譜本來就是動態的,所以后來有工作將時間信息考慮進去,但只是將時間序列作為 KG embedding 過程中的約束,沒有明顯地體現時間的特性。為此,本文提出的 HyTE 模型直接在學習的過程中結合時間信息。

論文模型

本文認為不僅是知識圖譜中的實體可能會隨著時間改變,實體間的關系也是如此。由于 TransE 模型不能處理多關系的情形,而 TransH 模型能夠使實體在不同的關系下擁有不同的表示,所以本文受 TransH 的啟發提出了一個基于超平面的時間感知知識圖譜嵌入模型。?

考慮一個四元組?(h,r,t,[τs,?τe]),這里的?τs?τe?分別定義了三元組成立時間段的起始與截止。TransE 模型將實體和關系考慮到相同的語義空間,但是在不同的時間段,實體與關系組成的(h,r)可能會對應到不同的尾實體 t。

所以在本文的模型中,希望實體能夠隨不同的時間點有著不同的表示。為了達到這一目的,文中將時間表示成超平面(hyperplane),模型示意圖如下:

eheter,分別表示三元組中頭實體,尾實體以及關系所對應的向量表示,τ1?和?τ2?分別表示此三元組有效成立時間段的起始時間與截止時間。eh(τ1),?er(τ1) 以及表示各向量在時間超平面 τ1?上的投影,最終,模型通過最小化翻譯距離來完成結合時間的實體與關系 embedding 學習過程。

實驗

當實驗數據包含兩部分:YAGO11k 和 Wikidata12k,這兩個數據集抽取了 YAGO 以及 Wikidata 中帶有時間注釋(time annotations)的部分。通過 Link prediction 以及 Temporal scoping 兩個實驗任務與其它模型比較,實驗結果如下:

實體預測結果

關系預測結果

Temporal Scoping預測結果(越小越好)

實驗結果表明,HyTE 模型在相關任務上與其它模型相比有較為顯著的提升。

EMNLP 2018




■ 論文解讀 |?王梁,浙江大學碩士,研究方向為知識圖譜、自然語言處理


研究背景

機器閱讀任務按照答案類型的不同,可以大致分為:

  • 分類問題:從所有候選實體選擇一個;

  • Answer Span:答案是輸入文本的一個片段;

  • 生成式問題:模型生成一句話回答問題。

不同的數據集文檔的差異也較大。如 SQuAD,CNN/DM 數據集來源于百科,新聞等文本,問題類型多為事實型,因而回答問題不需要綜合全文多處進行綜合推理,只需要包含答案的句子即可。而本文實驗所用的數據集如 NarrativeQA 則來源于小說等,回答問題需要綜合全文多處不相連片段進行推理,因此難度更大。?

本文提出在 NarrativeQA 等需要多跳推理的文本進行生成式問題回答的模型。人工抽樣數據集樣本分析發現,許多樣本答案的推理單憑文本包含的信息是無法完成推理并回答的,需要引入外部知識庫中的常識信息。本文提出在常規的機器閱讀模型中引入 ConceptNet 中的常識信息。

Baseline模型


按照機器閱讀模型的一般性結構,Baseline 模型可以分為 4 層:

1. Embedding Layer:問題和文檔里的每個詞用預訓練的詞向量和 ELMo 向量表示;

2. Reasoning Layer:重復執行 K 次推理單元,推理單元的內部結構是 BiDAF 模型的 attention 層;

3. Model Layer:最后再對文檔的表示做 self-attention 和 Bi-LSTM;

4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同時對詞表和輸入計算輸出概率,每個詞在當前位置被輸出的概率為其在詞表中被選中的概率和其在輸入中被 copy 的概率之和。

改進模型:引入外部常識

常識挑選?

對每一個樣本,需要中外部 KG 中選擇與之相關的多跳路徑,做法如下:?

1. 在 KG 中找出多跳路徑,其中包含的實體出現在樣本的問題或文檔中;

2. 對這些路徑中的實體節點按照出現次數或 PMI 打分;

3. 類似 beam search,從所有路徑生成的輸出中挑選出得分最高的一些路徑,這些路徑是對該樣本可能有幫助的外部常識信息。

模型引入常識

引入外部常識通過修改 Reasoning Layer 中的基本單元。具體做法是,每條路徑的 embedding 表示為其每個節點的文本 embedding 的簡單拼接,修改后的 Reasoning Cell 在經過 BiDAF 的 attention 結構后,再對該樣本的所有外部常識三元組路徑做 attention 計算,該 attention 計算再次更改文檔和問題中每個詞的表示。?


實驗結果


對比 Baseline 模型和引入外部常識的模型可見,引入外部常識能是模型在 BLEU 和 Rouge 等指標上取得不錯的提升。

對模型做 ablation test,可以發現推理層的推理次數如果為 1,模型效果下降很多,這表明模型確實在利用多跳的路徑信息。另外,ELMo embedding,以及經過 Reasoning 層后的 self-attention,都對模型的效果提升較大。

ISWC 2018




■ 論文解讀 |?丁基偉,南京大學博士生,研究方向為知識圖譜、知識庫問答


研究背景

面向知識庫的語義問答是指將用戶的自然語言問句轉換為可以在知識庫上執行的形式化查詢并獲取答案,其面臨的挑戰主要有以下幾點:1)實體的識別和鏈接;2)關系的識別和鏈接;3)查詢意圖識別;4)形式化查詢生成。

其中實體鏈接和關系鏈接是指將自然語言問句中的詞匯(或短語)鏈接到知識庫中對應的實體或關系。大多數現有問答系統依次或并行執行實體鏈接和關系鏈接步驟,而本工作將這兩個步驟合并,提出了基于廣義旅行商問題基于連接密度相關特征進行機器學習的兩種聯合鏈接方法。

下表展示了不同種類的鏈接方法的優缺點:


框架及方法


上圖展示了本文提出的聯合的實體關系鏈接框架(EARL,Entity and Relation Linking),主要包括如下兩個步驟:

預處理步驟(左側紅框)包括如下三個子過程:?

1. 利用 SENNA 系統從輸入的自然語言問句中抽取出若干關鍵詞短語。對于圖中輸入的問句,這里抽取到的關鍵詞短語是<founder,Tesla, SpaceX, born>。?

2. 對于每個關鍵詞,使用基于字符嵌入(character embedding)的 LSTM 網絡判斷它是知識庫中的關系還是實體。對于上個過程中的關鍵詞短語,這一步將“founder”和“born”識別為關系, 將“Tesla”和“SpaceX”識別為實體。?

3. 為每個關鍵詞短語生成候選實體或關系列表。對于問句中的實體名,利用預先收集的 URI-label 詞典,以及 Wikidata 中的實體別名、sameas 關系等進行生成。對于關系詞,利用 Oxford Dictionary API 和 fastText 擴展知識庫上的關系名后進行關聯。

聯合消歧步驟(右側黃框),主要包括本文提出的兩個核心方法:?

1. 基于廣義旅行商問題(GTSP)的消歧方法。如下圖所示,該方法將每個關鍵詞的候選 URI 放入同一個簇。邊的權重被設置為兩個 URI 在知識庫上的距離(hop 數),而聯合消歧過程被建模為在該圖上尋找一條遍歷每個簇的邊權總和最小的路(頭尾結點可以不同)。

對于 GTSP 問題的求解,本工作先將其轉換為 TSP 問題,后使用 Lin-Kernighan-Helsgaun 近似算法進行求解。圖中加粗的邊表示該示例的求解結果。

2. 基于連接密度相關特征進行機器學習的消歧方法。對于每個關鍵詞的所有候選 URI,分別抽取特征 Ri(候選列表中的排序位置),C(2 步以內可達的其他關鍵詞的候選 URI 的數量),H(到其他關鍵詞的候選 URI 的平均步數)三個特征,采用 XGBoost 分類器篩選最合適的候選。

下表總結了上述兩個消歧方法的差異:

3. 額外的,本文提出了一種自適應實體/屬性預測方法。如果消歧后某個實體/關系和它最終鏈接到的 URI 的置信度低于閾值,則可能預處理步驟的第二個子過程(實體/關系預測)有錯誤。在這種情況下,該工作會更改該關鍵詞的實體/關系標簽,重新執行候選生成和消歧步驟,從而獲得整體精度的提升。

實驗

本文選用了 LC-QuAD 問答數據集進行實驗,包含 5000 個問句。其標準答案(實體/關系對應的 URI)采用人工標注的方法進行生成。除此以外本文還選用了現有的 QALD-7 問句集進行測試。?

實驗結果如下表所示,和對比方法相比,EARL 在 MRR 值上有較大提升。?

實體鏈接結果:

關系鏈接結果:


IJCAI 2018




解讀 |?譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理


論文動機

近年來,隨著多語言知識圖譜嵌入(Multilingual KG Embedding)的研究,實體的潛在語義表示以及跨語言知識推理等任務均取得一定成效,因此也推動了許多知識驅動的跨語言工作。然而,受限于各語言知識圖譜之間較低的實體對齊(Entity Alignment)程度,跨語言推理的準確性往往不夠令人滿意。?

考慮到多語言知識圖譜中具有對實體的文字性描述,文章提出一種基于嵌入(Embedding)的策略:通過利用圖譜中實體的文字描述,對僅包含弱對齊(KG 中的 inter-language links,ILLs)的多語圖譜做半監督的跨語言知識推理。?

為了有效利用圖譜知識以及實體的文字描述,文章提出通過協同訓練(Co-train)兩個模塊從而構建模型 KDCoE:多語言知識嵌入模塊和多語言實體描述嵌入模塊。

論文貢獻

文章貢獻如下:

1. 提出了一種半監督學習方法 KDCoE,協同訓練了多語知識圖譜嵌入和多語實體描述嵌入用于跨語言知識對齊;

2. 證明 KDCoE 在 Zero-shot 實體對齊以及跨語言知識圖譜補全(Cross-lingual KG Completion)任務上的有效性;

論文方法

多語言知識圖譜嵌入(KGEM)

知識模型(Knowledge Model)對齊模型(Alignment Model)兩個部分構成,分別從不同角度學習結構化知識。?

知識模型:用于保留各語言知識嵌入空間中的實體和關系。文章采用了傳統的 TransE 方法構建知識模型,并認為這種方法有利于在跨語言任務重中保持實體表示的統一性,且不會受到不同關系上下文帶來的影響。其對應的目標損失函數如下:

其中,L 表示某種語言,(Li,Lj) 表示一組語言對,GL 表示語言 L 對應的知識圖譜,反映的是圖譜中三元組 (h,r,t) 之間的相異度,r 是一個 positive margin,[x]+ 則表示取 x 的正值部分,表示一組伯努利負采樣三元組,用于替換圖譜三元組中的 h 和 t。

對齊模型:用于在不同語言的嵌入空間中獲取跨語言關聯。為了將不同語言間的知識關聯起來,文章參照 MTransE 中的線性轉換策略,其目標函數如下:

其中 (e, e') 是一組已知的對齊實體,當知識嵌入向量的維度為?k1 時,Mij 是一個的線性轉換矩陣,用于將 Li 語言的實體向量轉換為 Lj 語言。這里與 MTransE 方法不同的是,文章僅計算了跨語言實體嵌入而非三元組整體嵌入。

KGEM 的目標函數:

其中,α 是一個正超參數。

多語言實體描述嵌入(DEM)

DEM 過程包含兩個部分:編碼和跨語言嵌入。

編碼:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 對多語言實體描述進行編碼,可以理解為帶有 self-attention 的 GRU 循環網絡編碼器。

文章希望利用 self-attention 機制使得編碼器能夠凸顯實體描述句子中的關鍵信息,AGRU 中的 self-attention 可以定義為以下公式:

其中,ut 是由 GRU 中 st 產生的隱藏表示,attention 權值 at 則是由一個 softmax 函數計算得到,反映的是單詞 xt 對于序列 X 的重要性,而后依據此權重與隱藏表示可以得到 self-attention 的輸出 vt,|X|(輸入序列的長度)用于防止 vt 失去原有的規模。?

在這個部分,作者也嘗試了其他的編碼框架,包括單層網絡,CNN,ALSTM 等等,但 AGRU 取得了最好的性能。

跨語言嵌入部分:為了更好的反映出多語言實體描述的詞級別語義信息,文章使用跨語言詞嵌入方法用于衡量和找出不同語言間的相似詞匯。大致流程可描述如下:?

首先,使用跨語言平行語料 Europarl V7 以及 Wikipedia 中的單語語料,對 cross-lingualBilbowa [Gouws et al., 2015] word embeddings 進行預訓練。而后使用上述 embeddings 將實體描述文本轉換為向量序列,再輸入進編碼器中。

DEM 學習目標:文章建立的編碼器由兩個堆疊的 AGRU 層構成,用于建模兩種語言的實體描述。該編碼器將實體描述序列作為輸入,而后由第二層輸出生成的 embedding。而后,文章引入了一個 affine 層,將上述各種語言的 embedding 結果投影到一個通用空間中,其投影過程由以下公式描述:

DEM 的目標是最大化各個實體描述 embedding 與對應的其他語言版本之間的 log 相似度,故可以將目標函數描述如下:

迭代Co-training的KDCoE模型

文章利用 KG 中存在的少量 ILLs 通過迭代的協同過程訓練 KGEM 和 DEM 兩個模塊,過程大致描述如下:?

每次迭代中,各模塊都進行一系列“訓練-生成”的過程:?

1)首先利用已有的 ILLs 對模型進行訓練;2)之后利用訓練得到的模型從 KG 中預測得到以前未出現過的新 ILLs;3)而后將這些結果整合到已有 ILLs 中,作為下一輪迭代的訓練數據;4)判斷是否滿足終止條件:本輪迭代中各模塊不再生成新的 ILLs。

其算法細節描述如下圖:


實驗

實驗相關細節

實驗數據說明:文章實驗數據來自 DBPedia 中抽取的子集 WK3160k,由英法德三語構成,其中每種語言數據中包含了 54k-65k 規模的實體。具體統計信息如下表:


文章分別在跨語言實體對齊,Zero-shot 對齊以及跨語言知識圖譜補全等三個任務上進行實驗。


其中,跨語言實體對齊選用的基線系統包括:LM,CCA,OT,ITransE 以及 MTransE 的三種策略;Zero-shot 對齊的基線系統為:Single-layer 網絡,CNN,GRU,AGRU 的兩種策略;知識圖譜補全的基線系統為 TransE。


實驗結果?


跨語言實體對齊:如下圖所示,文章設置了三組評價指標,分別為:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR。



從結果上看,KDCoE 模型的性能遠優于其他系統,且隨著 Co-train 的迭代次數增加,系統的性能也都有較為明顯的提升。


Zero-shot 對齊:Zero-shot 采用的評價指標與跨語言實體對齊相同,下圖反映了 KDCoE 在 Zero-shot 對齊任務中的實驗結果。



從實驗結果上看,KDCoE 的效果依然是隨著迭代次數的增加而上升,但從第一次迭代的結果可以發現,其優勢的來源基礎是 AGRU。這也反映出 AGRU 在編碼上相對其他網絡模型體現出了更優性能。?


跨語言知識補全:在跨語言知識補全任務中,文章采用 proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR 等兩個評價指標。



根據 KDCoE-mono 的表現,可以推斷,該模型成功繼承了 TranE 保持結構化知識中實體和關系的穩定性。而 KDCoE-corss 則反映引入跨語言信息確實對知識補全的效果起到了明顯提升。


總結


本文提出了一種基于 embedding 技術的跨語言知識對齊方法,通過引入 Co-train 機制,將 KG 中的關系上下文與實體描述信息有效的利用起來,以現有 KG 中的小規模 ILLs 為基礎建立半監督機制,在跨語言實體對齊,知識補全上都起到了明顯的效果。



IJCAI 2018




■ 論文解讀 |?花云程,東南大學博士,研究方向為知識圖譜問答、自然語言處理


論文動機

在以前的工作中,對話生成的信息源是文本與對話記錄。但是這樣一來,如果遇到 OOV 的詞,模型往往難以生成合適的、有信息量的回復,而會產生一些低質的、模棱兩可的回復。?

為了解決這個問題,有一些利用常識知識圖譜生成對話的模型被陸續提出。當使用常識性知識圖譜時,由于具備背景知識,模型更加可能理解用戶的輸入,這樣就能生成更加合適的回復。但是,這些結合了文本、對話記錄、常識知識圖譜的方法,往往只使用了單一三元組,而忽略了一個子圖的整體語義,會導致得到的信息不夠豐富。?

為了解決這些問題,文章提出了一種基于常識知識圖譜的對話模型(commonsense knowledge aware conversational model,CCM)來理解對話,并且產生信息豐富且合適的回復。

本文提出的方法,利用了大規模的常識性知識圖譜。首先是理解用戶請求,找到可能相關的知識圖譜子圖;再利用靜態圖注意力(static graph attention)機制,結合子圖來理解用戶請求;最后使用動態圖注意力(dynamic graph attention)機制來讀取子圖,并產生合適的回復。

通過這樣的方法,本文提出的模型可以生成合適的、有豐富信息的對話,提高對話系統的質量。

論文貢獻

本文貢獻如下:

1. 首次嘗試使用大規模常識性知識圖譜來處理對話生成問題;

2. 對知識圖譜子圖,提出了靜態/動態圖注意力機制來吸收常識知識,利于理解用戶請求與生成對話。

論文方法

Encoder-Decoder模型?

經典的 Encoder-Decoder 模型是基于 Seq2Seq 的。Encoder 模型將用戶輸入(user post)X 用隱狀態 H 來表示,而 Decoder 模型使用另一個 GRU 來循環生成每一個階段的隱狀態。

其中 Ct 是上下文向量,通過注意力機制按步生成。最終,Decoder 模型根據概率分布生成了輸出狀態,并產生每一步的輸出 token。

模型框架


如下圖 1 所示為本文提出的 CCM 模型框架。


▲?圖1. CCM模型框架


如圖 1 所示,基于 n 個詞輸入,會輸出 n 個詞作為回復,模型的目的就是預估這么一個概率分布:



也就是將圖信息 G 加入到概率分布的計算中。


在信息讀取時,根據每個輸入的詞 x,找到常識知識圖譜中對應的子圖(若沒有對應的子圖,則會生成一個特殊的圖 Not_A_Fact),每個子圖又包含若干三元組。在信息讀取時,詞向量與這個詞對應的子圖向量拼接,而子圖向量是由采用靜態圖注意力機制生成的。


當生成回復時,采用動態圖注意力機制來引用圖信息,即讀取每個字對應的子圖和子圖中的實體,并且在生成當前回復時,通過概率計算應該是生成通用詞還是這個子圖中的相關實體。


知識編譯模塊


如圖 2 所示,為如何利用圖信息編譯 post 的示意圖。


▲?圖2. 知識編譯模塊


如圖所示,當編譯到“rays”時,會把這個詞在知識圖譜中相關的子圖得到(圖 2 最上的黃色高亮部分),并生成子圖的向量。每一個子圖都包含了 key entity(即這里的 rays),以及這個“rays”的鄰居實體和相連關系。


對于詞“of”,由于無法找到對應的子圖,所以就采用特殊子圖 Not_A_Fact 來編譯。之后,采用基于靜態注意力機制,CCM 會將子圖映射為向量 gi,然后把詞向量 w(x_t) 和 gi 拼接為 e(xt)=[w(xt); gi],并將這個 e(xt) 替換傳統 encoder-decoder 中的 e(xt) 進行 GRU 計算。?


對于靜態圖注意力機制,CCM 是將子圖中所有的三元組都考慮進來,而不是只計算一個三元組,這也是該模型的一個創新點。當得到子圖時,且這個子圖由三元組 K 表示, K(gi)={k1,k2,…,k(NG)}。在計算時,就是將當前三元組的頭實體與尾實體向量通過矩陣變換后相加,再經過正切激活函數后,與經過矩陣變換的關系進行點積,得到一個值。


而將這個詞向量與所有三元組進行計算后,再經過 softmax,就得到了一個權重。把子圖中所有頭實體、尾實體按對相加,再基于權重計算加權和,就得到了圖向量 gi。


知識生成模塊


如下圖 3 所示,為如何利用圖信息生成回復的示意圖。


▲?圖3. 知識生成模塊?


在生成時,不同于靜態圖注意力機制,模型會讀取所有相關的子圖,而不是當前詞對應的子圖,而在讀取時,讀取注意力最大的就是圖中粉色高亮的部分。生成時,會根據計算結果,來選擇是生成通用字(generic word)還是子圖中的實體。?


在進行 decoder 時,公式改為,而是指將生成的詞向量,以及這個詞來自的三元組向量進行拼接(如果生成的是一個通用詞,那么三元組就是 Not_A_Fact)。


在這里,可以看到 GRU 的輸入多了兩個向量(來自于表示圖信息的向量)和(表示三元組信息的向量)。


對于動態圖注意力機制,是一種層次型的計算,即 CCM 先根據 post 相關的所有知識圖譜子圖來計算一個向量,再根據子圖中的三元組再計算一個向量。對于上個階段的隱狀態輸出 st,最終的是圖向量 gi 的加權和。?


然后,對于每個子圖中的三元組 kj,CCM 又計算了一次注意力,最終的是 kj 的加權和,權重為對應圖 gi 的注意力權重與三元組 kj 的注意力權重之積。?


最終,每一個 step 的輸出,是根據 st 來選擇一個通用詞或者子圖中的實體。


損失函數


損失函數為預期輸出與實際輸出的交叉熵,除此之外,為了監控選擇通用詞還是實體的概率,又增加了一個交叉熵。公式如下:



其中 γt 就是選擇的概率,而就是一個 Boolean 值,表示在實際輸出 Y 中是選擇了通用詞還是實體。


實驗


實驗相關細節?


常識性知識圖譜選用了 ConceptNet,對話數據集選用了 reddit 的一千萬條數據集,如果一個 post-response 不能以一個三元組表示(一個實體出現于 post,另一個出現于 response),就將這個數據去除。然后對剩下的對話數據,根據 post 的詞的出現頻數,分為四類。?


基線系統選擇了如下三個:只從對話數據中生成 response 的 Seq2seq 模型、存儲了以 TransE 形式表示知識圖譜的 MemNet 模型、從三元組中 copy 一個詞或生成通用詞的 CopyNet。?


在選用 metric 的時候,采用了刻畫回復內容是否語法正確且貼近主題的 perplexity,以及有多少個知識圖譜實體被生成的 entity score。


實驗結果?


如下圖 4 所示,為根據 perplexity 和 entity score 進行的性能比較,可見 CCM 的 perplexity 最低,且選取 entity 的數量最多。并且,在低頻詞時,選用的 entity 更多。這表示在訓練時比較罕見的詞(實體)會需要更多的背景知識來生成答復。


▲?圖4. CCM與基線系統對比結果?


另外,作者還采用眾包的方式,來人為審核 response 的質量,并采用了兩種度量值 appropriateness(內容是否語法正確,是否與主題相關,是否有邏輯)與 informativeness(內容是否提供了 post 之外的新信息)。如下圖 5 所示,為基于眾包的性能比較結果。


▲?圖5. CCM與基線系統基于眾包的對比結果


從圖 5 中可見,CCM 對于三個基線系統來說,都有將近 60% 的回復是更優的。并且,在 OOV 的數據集上,CCM 比 seq2seq 高出很多,這是由于 CCM 對于這些低頻詞或未登錄詞,可以用知識圖譜去補全,而 seq2seq 沒有這樣的知識來源。?


在 case study 中,當在 post 中遇到未登錄詞“breakable”時,seq2seq 和 MemNet 都只能輸出一些通用的、模棱兩可的、毫無信息量的回復。CopyNet 能夠利用知識圖譜輸出一些東西,但是并不合適。而 CCM 卻可以輸出一個合理的回復。?


總結


本文提出了一種結合知識圖譜信息的 encoder-decoder 方法,引入靜態/動態圖注意力機制有效地改善了對話系統中 response 的質量。通過自動的和基于眾包的形式進行性能對比,CCM 模型都是優于基線系統的。



COLING 2018




■ 論文解讀?| 譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理

知識庫問答研究旨在利用結構化事實回答自然語言問題,在網絡中,簡單問題占據了相當大的比例。本文提出在完成模式抽取和實體鏈接后,構建一個模式修正機制,從而緩解錯誤積累問題。

為了學習對“subject-predicate”(問題的實體-謂詞)候選集的排序,本文提出將關系檢測機制用于強化聯合事實選擇,多級別編碼和多維信息將被用于強化整個模型過程。實驗結果表明,本方法展現出非常強大的性能。

研究背景

簡單知識庫問答,指的是問答中僅需用到知識庫中的一個事實即可給出答案的過程。其流程和可以描述為:從自然語言問句中識別實體,謂詞,并與知識庫中的內容構成完整三元組的過程。?

簡單知識庫問答目前存在的主要挑戰包括:?

1. 同一單詞(詞語)在不同句子中的意義不同;

2. 不同的自然語言表達方式具有相同的含義;

3. 如何利用大規模知識庫中的大量事實信息。

論文模型

在簡單問答中,首先要做的是實體鏈接,常規的實體鏈接方法包括 n-gram 匹配,序列標注等等,但是這兩個方法都有可能導致錯誤積累,從而無法找到準確的“實體-謂詞”對。?

考慮到這些問題,本文首先使用模式抽取和實體鏈接,將可能的實體描述和問題模式提取出來,而后減少知識庫中的候選實體數量。?

在模式抽取過程中,作者發現由于模型性能問題,抽取結果中存在一定比例的較差模式。為了應對這個情況,文章提出添加模式修正機制以提升模式抽取的質量。?

下一步工作就是找出最可能生成問題答案的“實體-謂詞”對,對于這個問題,前人的工作中主要考慮使用問題模式與候選實體信息來選擇合適的謂詞。本文則引入了關系檢測機制進行改進,其效果體現在限定了知識庫中問題表達對應的謂詞,從而引導候選實體的重排序。?

當問題所問實體在知識庫中存在大量不同類型的重名實體時,先做關系推理或者實體鏈接都有可能引發無召回問題。對此,本文的策略是采用聯合事實篩選,通過利用實體的名稱信息和類別信息從不同角度描述實體。?

在確定謂詞方面,作者采用唯一關系名分散詞信息作為限定條件。

▲?本文問答模型的示意圖

同時為了準確保留原始問句的內容,本文將字符級別與詞級別的編碼結果進行合并,用于表達原始問句。

▲?本文編碼策略的示意圖


實驗

本文實驗使用的數據集為 SimpleQuestions benchmark 提供的問答數據集,其中的每個問題都可以由 freebase 中的一個三元組回答。?

數據集分為三個部分:訓練集規模為75910,驗證集為10845,測試集為21687。

知識庫則是從 freebase 中抽取的子集 FB2M (2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M (4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)。

實驗評價指標為準確率,僅當問題對應的事實與模型得到的實體和謂詞兩者都匹配時,才算準確匹配。

從實驗結果上看,本文方法相對過去的工作,取得了非常明顯的提升。




點擊以下標題查看更多相關文章:?


  • 叮!請查收本周份「知識圖譜」專題論文解讀

  • 從 6 篇頂會論文看「知識圖譜」領域最新研究進展

  • 「知識圖譜」領域近期值得讀的 6 篇頂會論文

  • 知識圖譜論文大合集,這份筆記解讀值得收藏

  • 綜述 | 知識圖譜向量化表示

  • 東南大學周張泉:基于知識圖譜的推理技術




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的最新知识图谱论文清单,就算看不懂也会忍不住收藏的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲一区二区在线播放 | 老头老夫妇自拍性tv | 中文字幕人妻熟女在线 | 成人免费黄色av | 亚洲4438| 天堂а√在线中文在线鲁大师 | 国产中文字幕一区二区 | 青青草手机在线视频 | 亚洲天堂久久久久 | 不卡的av在线播放 | 日美女逼逼 | 免费高清欧美大片在线观看 | 精品无码一区二区三区电影桃花 | 中文字幕综合 | 波多野结衣 久久 | 麻豆午夜视频 | 国产xxxxxxxxx| 中文字幕乱码人妻无码久久95 | 国产精品资源网站 | 亚洲天堂网在线观看视频 | 国产原创一区 | 五月婷婷操 | 有码视频在线观看 | 日韩有码中文字幕在线观看 | 男人av资源 | 欧美三级网 | 久射网| 国产高清在线免费观看 | 亚欧色视频 | 亚洲美女视频网 | 国产性猛交╳xxx乱大交一区 | 99久久久久成人国产免费 | 美女屁股眼视频免费 | 视频在线日韩 | 成人福利一区 | 亚洲网站免费看 | 小视频在线| 色综合影视 | 成人污污视频在线观看 | 亚洲一区二区在线免费 | 六月久久| 男人干女人视频 | 少妇高潮久久久久久潘金莲 | 色综合久久综合 | 一区二区天堂 | 天天综合久久综合 | 超碰98在线观看 | 看片免费黄在线观看入口 | 精品国产伦一区二区三 | av夜色| av黄在线 | 成人欧美在线观看 | 欧美卡一卡二 | 免费91看片 | 国产呦系列 | 红色假期黑色婚礼2 | 久久精品人妻av一区二区三区 | 夜夜操夜夜操 | www.夜夜| 日本成人中文字幕 | www激情com | 伊人久久激情 | 五月天激情综合 | 全部免费毛片在线播放一个 | 一区二区三区欧美精品 | 国产精品久久77777 | 蜜臀久久精品 | 丰满大乳国产精品 | 91精品久久人妻一区二区夜夜夜 | 丰满大乳奶做爰ⅹxx视频 | 亚洲va在线| 69精品人人 | 五月天亚洲色图 | 免费看a网站| 在线看三级 | 日韩黄色一级大片 | 奇米影 | 欧美大屁股熟妇bbbbbb | 成人久久久精品国产乱码一区二区 | 国产男男chinese网站 | 污视频网址 | 精品日韩制服无码久久久久久 | 国产欧美在线精品日韩 | 伊人99| 91久久电影 | 亚洲综合激情另类小说区 | 蜜桃久久久aaaa成人网一区 | 夜夜骚网站 | 91亚洲精品一区 | 天堂av网手机版 | 国产一级免费看 | 日噜| 中文字幕 欧美 日韩 | 亚洲熟女乱色一区二区三区久久久 | 欧美a∨亚洲欧美亚洲 | 爽天天天天天天天 | 国产精品久久久久久一区 | 日韩欧美久久久 | 精品视频在线一区 |