當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...

發(fā)布時(shí)間：2023/12/18 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：胡楠，東南大學(xué)博士。

來源：ISWC 2020

動(dòng)機(jī)

像Wikidata這樣的現(xiàn)代知識(shí)圖已經(jīng)捕獲了數(shù)十億個(gè)RDF三元組，但是它們?nèi)匀蝗狈?duì)大多數(shù)關(guān)系的良好覆蓋。同時(shí)在NLP研究的最新進(jìn)展表明，可以輕松地查詢神經(jīng)語言模型以獲得相關(guān)知識(shí)而無需大量的訓(xùn)練數(shù)據(jù)。這項(xiàng)論文工作綜合這些進(jìn)展通過在知識(shí)圖譜的頂部創(chuàng)建一個(gè)結(jié)合BERT的混合查詢應(yīng)答系統(tǒng)來改善補(bǔ)全查詢結(jié)果，將知識(shí)圖譜中的有價(jià)值的結(jié)構(gòu)和語義信息與語言模型中的文本知識(shí)相結(jié)合，以達(dá)到高精度查詢結(jié)果。當(dāng)前處理不完整知識(shí)圖譜的標(biāo)準(zhǔn)技術(shù)是(1)需要大量訓(xùn)練數(shù)據(jù)的關(guān)系提取，或者(2)知識(shí)圖譜嵌入，這些知識(shí)在簡單的基準(zhǔn)數(shù)據(jù)集之外就難以成功。論文為此提出的混合系統(tǒng)KnowlyBERT僅需要少量的訓(xùn)練數(shù)據(jù)，并且在Wikidata上進(jìn)行實(shí)驗(yàn)，結(jié)果表明優(yōu)于最新技術(shù)。

模型

系統(tǒng)概述圖如上所示。作為KnowlyBERT的輸入，用戶可以向系統(tǒng)提出以實(shí)體為中心的SPARQL查詢。首先，查詢語言模型(a)；然后，對(duì)不完整的知識(shí)圖譜進(jìn)行查詢，并獲得結(jié)果(b)；另外SPARQL查詢被翻譯成多種自然語言語句，這些語言語句在“關(guān)系模板生成”步驟中由語言模型完成；語言模型返回多個(gè)單詞列表以及每個(gè)單詞(c)的置信度值；然后將這些列表合并為一個(gè)列表(d)，并根據(jù)知識(shí)圖譜類型信息(e)使用我們的語義過濾步驟進(jìn)行過濾。此外，執(zhí)行閾值處理，削減不相關(guān)的結(jié)果(f)；最后，將語言模型和知識(shí)圖譜的結(jié)果合并(g)并返回給用戶。

關(guān)系模板生成

作為查詢語言模型以獲取相關(guān)知識(shí)的第一步，需要將SPARQL查詢轉(zhuǎn)換為帶有[MASK]標(biāo)記的自然語言語句。在這項(xiàng)工作中采用自動(dòng)生成的句子思想，并在預(yù)處理步驟中針對(duì)知識(shí)圖譜的每個(gè)關(guān)系自動(dòng)提取候選句子并對(duì)其進(jìn)行評(píng)分，以生成相關(guān)句子模板。這樣的模板可以具有以下格式：“[S]出生于[O]”，用于出生地關(guān)系，而[S]被查詢的主題實(shí)體替換，或[O]被對(duì)象替換。生成句子模板不是在查詢時(shí)執(zhí)行，而是一個(gè)預(yù)處理步驟。

附加上下文段落。通過向查詢語句提供額外的上下文信息，可以進(jìn)一步提高語言模型的預(yù)測質(zhì)量。對(duì)于查詢中的每個(gè)實(shí)體，文章已經(jīng)從相應(yīng)的Wikipedia摘要中提取了前五個(gè)句子，并使用BERT的[SEP]令牌將其添加到了生成模板中。與現(xiàn)有工作相比，文章將自動(dòng)模板生成和上下文段落檢索結(jié)合在一起，從而提高了結(jié)果質(zhì)量。

查詢語言模型并組合結(jié)果

現(xiàn)在使用多個(gè)句子模板以及相應(yīng)的上下文段落，以從語言模型中獲得對(duì)應(yīng)查詢的可能答案。由于可能的答案實(shí)體標(biāo)簽可能包含多個(gè)單詞，因此文章使用單個(gè)[MASK]標(biāo)記構(gòu)成查詢以返回可能的單個(gè)單詞實(shí)體，還要使用多個(gè)[MASK]標(biāo)記進(jìn)行查詢。文中將結(jié)果列表中所有可能的單詞組合連接起來，并檢查是否已創(chuàng)建知識(shí)圖譜中的有效實(shí)體標(biāo)簽，這一步能夠過濾掉大部分無法映射到任何實(shí)體的預(yù)測單詞。

匯總來自多個(gè)模板的結(jié)果。單個(gè)查詢的不同句子模板導(dǎo)致每個(gè)結(jié)果實(shí)體具有不同概率值的獨(dú)立結(jié)果列表。文中首先簡單地合并列表，如果一個(gè)實(shí)體出現(xiàn)在多個(gè)列表中，則選擇最大概率。此外，還比較在多個(gè)列表中出現(xiàn)的每個(gè)實(shí)體的最大概率和最小概率，如果它們的差值超過設(shè)定的閾值，則該實(shí)體不會(huì)進(jìn)入最終結(jié)果列表。

語義類型過濾

大多數(shù)知識(shí)圖譜為實(shí)體提供了非常詳細(xì)的類型層次結(jié)構(gòu)，文章將其用于進(jìn)一步過濾語言模型結(jié)果。在語義類型過濾步驟之后，仍然可以得到具有相同實(shí)體標(biāo)簽的多個(gè)可能的答案實(shí)體，對(duì)于此類罕見情況，文中執(zhí)行了額外的實(shí)體消歧步驟，使用流行度過濾器排除了極為罕見的實(shí)體。具體為，當(dāng)實(shí)體在整個(gè)知識(shí)圖中從不出現(xiàn)為對(duì)象實(shí)體時(shí)，將其排除；如果存在多個(gè)同音異義詞，則返回最流行的實(shí)體作為答案。

閾值設(shè)定與結(jié)果返回

作為返回結(jié)果列表之前的最后一步，文中執(zhí)行閾值確定過程以確保僅將高質(zhì)量結(jié)果返回給用戶。文中執(zhí)行了兩種不同的閾值機(jī)制，通過預(yù)測值之間的統(tǒng)計(jì)異常值分析為每個(gè)查詢動(dòng)態(tài)選擇第一閾值，如果語言模型未返回正確答案，則動(dòng)態(tài)閾值方法將不起作用。因此還選擇了一個(gè)對(duì)所有查詢均有效的附加靜態(tài)閾值，該閾值是通過對(duì)不完整知識(shí)圖中已經(jīng)存在的已知結(jié)果的概率求平均，也可以對(duì)語言模型結(jié)果列表中的已知結(jié)果概率求平均值。最后，文中將不完整知識(shí)圖譜的結(jié)果列表與基于語言模型的管道的結(jié)果列表結(jié)合在一起，并消除重復(fù)項(xiàng)。

實(shí)驗(yàn)

數(shù)據(jù)集基于2020年2月6日的Wikidata Truthy dump，實(shí)驗(yàn)僅對(duì)三元組進(jìn)行評(píng)估，其中主語和賓語是具有rdf : label關(guān)系的實(shí)體。實(shí)驗(yàn)通過查詢語言模型并刪除不完整的KG中已經(jīng)存在的答案三元組來分別評(píng)估每個(gè)查詢，對(duì)于其余的其他結(jié)果計(jì)算精度和召回率值。報(bào)告的結(jié)果是返回其他結(jié)果的所有查詢的平均精度和召回值。

表1概述了KnowlyBERT和兩個(gè)基線系統(tǒng)的精度和召回率。最后一行中描述了的總精度和召回率值，KnowlyBERT的平均精度達(dá)到47.5％，比其他兩種方法的精度高出30％以上。與關(guān)系提取基準(zhǔn)(RE)相比，該方法極大地提高了精度，但是與RE基準(zhǔn)的17.6％相比，方法的召回率略低，為10.1％。在表2中給出了各種關(guān)系比較的實(shí)驗(yàn)結(jié)果。

總結(jié)

這項(xiàng)工作中提出了一種混合的語言知識(shí)模型查詢系統(tǒng)，該系統(tǒng)使用語言模型來應(yīng)對(duì)現(xiàn)實(shí)世界中知識(shí)圖譜的不完整性問題。該工作不會(huì)像以前的工作那樣污染知識(shí)圖譜的質(zhì)量，并且在必要時(shí)仍可以幫助提供完整的結(jié)果。在現(xiàn)實(shí)知識(shí)圖譜上的查詢實(shí)驗(yàn)表明，語言模型是減少不完整知識(shí)圖譜和完整結(jié)果集之間差距的一種很有前途的方法。

OpenKG

開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【转】Linux/ubuntu下apac
下一篇：发送带颜色的MSG

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...

動(dòng)機(jī)

模型

實(shí)驗(yàn)

總結(jié)

總結(jié)