powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...
論文筆記整理:胡楠,東南大學(xué)博士。
來源:ISWC 2020
動(dòng)機(jī)
像Wikidata這樣的現(xiàn)代知識(shí)圖已經(jīng)捕獲了數(shù)十億個(gè)RDF三元組,但是它們?nèi)匀蝗狈?duì)大多數(shù)關(guān)系的良好覆蓋。同時(shí)在NLP研究的最新進(jìn)展表明,可以輕松地查詢神經(jīng)語言模型以獲得相關(guān)知識(shí)而無需大量的訓(xùn)練數(shù)據(jù)。這項(xiàng)論文工作綜合這些進(jìn)展通過在知識(shí)圖譜的頂部創(chuàng)建一個(gè)結(jié)合BERT的混合查詢應(yīng)答系統(tǒng)來改善補(bǔ)全查詢結(jié)果,將知識(shí)圖譜中的有價(jià)值的結(jié)構(gòu)和語義信息與語言模型中的文本知識(shí)相結(jié)合,以達(dá)到高精度查詢結(jié)果。當(dāng)前處理不完整知識(shí)圖譜的標(biāo)準(zhǔn)技術(shù)是(1)需要大量訓(xùn)練數(shù)據(jù)的關(guān)系提取,或者(2)知識(shí)圖譜嵌入,這些知識(shí)在簡單的基準(zhǔn)數(shù)據(jù)集之外就難以成功。論文為此提出的混合系統(tǒng)KnowlyBERT僅需要少量的訓(xùn)練數(shù)據(jù),并且在Wikidata上進(jìn)行實(shí)驗(yàn),結(jié)果表明優(yōu)于最新技術(shù)。
模型
系統(tǒng)概述圖如上所示。作為KnowlyBERT的輸入,用戶可以向系統(tǒng)提出以實(shí)體為中心的SPARQL查詢。首先,查詢語言模型(a);然后,對(duì)不完整的知識(shí)圖譜進(jìn)行查詢,并獲得結(jié)果(b);另外SPARQL查詢被翻譯成多種自然語言語句,這些語言語句在“關(guān)系模板生成”步驟中由語言模型完成;語言模型返回多個(gè)單詞列表以及每個(gè)單詞(c)的置信度值;然后將這些列表合并為一個(gè)列表(d),并根據(jù)知識(shí)圖譜類型信息(e)使用我們的語義過濾步驟進(jìn)行過濾。此外,執(zhí)行閾值處理,削減不相關(guān)的結(jié)果(f);最后,將語言模型和知識(shí)圖譜的結(jié)果合并(g)并返回給用戶。
關(guān)系模板生成
作為查詢語言模型以獲取相關(guān)知識(shí)的第一步,需要將SPARQL查詢轉(zhuǎn)換為帶有[MASK]標(biāo)記的自然語言語句。在這項(xiàng)工作中采用自動(dòng)生成的句子思想,并在預(yù)處理步驟中針對(duì)知識(shí)圖譜的每個(gè)關(guān)系自動(dòng)提取候選句子并對(duì)其進(jìn)行評(píng)分,以生成相關(guān)句子模板。這樣的模板可以具有以下格式:“[S]出生于[O]”,用于出生地關(guān)系,而[S]被查詢的主題實(shí)體替換,或[O]被對(duì)象替換。生成句子模板不是在查詢時(shí)執(zhí)行,而是一個(gè)預(yù)處理步驟。
附加上下文段落。通過向查詢語句提供額外的上下文信息,可以進(jìn)一步提高語言模型的預(yù)測質(zhì)量。對(duì)于查詢中的每個(gè)實(shí)體,文章已經(jīng)從相應(yīng)的Wikipedia摘要中提取了前五個(gè)句子,并使用BERT的[SEP]令牌將其添加到了生成模板中。與現(xiàn)有工作相比,文章將自動(dòng)模板生成和上下文段落檢索結(jié)合在一起,從而提高了結(jié)果質(zhì)量。
查詢語言模型并組合結(jié)果
現(xiàn)在使用多個(gè)句子模板以及相應(yīng)的上下文段落,以從語言模型中獲得對(duì)應(yīng)查詢的可能答案。由于可能的答案實(shí)體標(biāo)簽可能包含多個(gè)單詞,因此文章使用單個(gè)[MASK]標(biāo)記構(gòu)成查詢以返回可能的單個(gè)單詞實(shí)體,還要使用多個(gè)[MASK]標(biāo)記進(jìn)行查詢。文中將結(jié)果列表中所有可能的單詞組合連接起來,并檢查是否已創(chuàng)建知識(shí)圖譜中的有效實(shí)體標(biāo)簽,這一步能夠過濾掉大部分無法映射到任何實(shí)體的預(yù)測單詞。
匯總來自多個(gè)模板的結(jié)果。單個(gè)查詢的不同句子模板導(dǎo)致每個(gè)結(jié)果實(shí)體具有不同概率值的獨(dú)立結(jié)果列表。文中首先簡單地合并列表,如果一個(gè)實(shí)體出現(xiàn)在多個(gè)列表中,則選擇最大概率。此外,還比較在多個(gè)列表中出現(xiàn)的每個(gè)實(shí)體的最大概率和最小概率,如果它們的差值超過設(shè)定的閾值,則該實(shí)體不會(huì)進(jìn)入最終結(jié)果列表。
語義類型過濾
大多數(shù)知識(shí)圖譜為實(shí)體提供了非常詳細(xì)的類型層次結(jié)構(gòu),文章將其用于進(jìn)一步過濾語言模型結(jié)果。在語義類型過濾步驟之后,仍然可以得到具有相同實(shí)體標(biāo)簽的多個(gè)可能的答案實(shí)體,對(duì)于此類罕見情況,文中執(zhí)行了額外的實(shí)體消歧步驟,使用流行度過濾器排除了極為罕見的實(shí)體。具體為,當(dāng)實(shí)體在整個(gè)知識(shí)圖中從不出現(xiàn)為對(duì)象實(shí)體時(shí),將其排除;如果存在多個(gè)同音異義詞,則返回最流行的實(shí)體作為答案。
閾值設(shè)定與結(jié)果返回
作為返回結(jié)果列表之前的最后一步,文中執(zhí)行閾值確定過程以確保僅將高質(zhì)量結(jié)果返回給用戶。文中執(zhí)行了兩種不同的閾值機(jī)制,通過預(yù)測值之間的統(tǒng)計(jì)異常值分析為每個(gè)查詢動(dòng)態(tài)選擇第一閾值,如果語言模型未返回正確答案,則動(dòng)態(tài)閾值方法將不起作用。因此還選擇了一個(gè)對(duì)所有查詢均有效的附加靜態(tài)閾值,該閾值是通過對(duì)不完整知識(shí)圖中已經(jīng)存在的已知結(jié)果的概率求平均,也可以對(duì)語言模型結(jié)果列表中的已知結(jié)果概率求平均值。最后,文中將不完整知識(shí)圖譜的結(jié)果列表與基于語言模型的管道的結(jié)果列表結(jié)合在一起,并消除重復(fù)項(xiàng)。
實(shí)驗(yàn)
數(shù)據(jù)集基于2020年2月6日的Wikidata Truthy dump,實(shí)驗(yàn)僅對(duì)三元組進(jìn)行評(píng)估,其中主語和賓語是具有rdf : label關(guān)系的實(shí)體。實(shí)驗(yàn)通過查詢語言模型并刪除不完整的KG中已經(jīng)存在的答案三元組來分別評(píng)估每個(gè)查詢,對(duì)于其余的其他結(jié)果計(jì)算精度和召回率值。報(bào)告的結(jié)果是返回其他結(jié)果的所有查詢的平均精度和召回值。
表1概述了KnowlyBERT和兩個(gè)基線系統(tǒng)的精度和召回率。最后一行中描述了的總精度和召回率值,KnowlyBERT的平均精度達(dá)到47.5%,比其他兩種方法的精度高出30%以上。與關(guān)系提取基準(zhǔn)(RE)相比,該方法極大地提高了精度,但是與RE基準(zhǔn)的17.6%相比,方法的召回率略低,為10.1%。在表2中給出了各種關(guān)系比較的實(shí)驗(yàn)結(jié)果。
總結(jié)
這項(xiàng)工作中提出了一種混合的語言知識(shí)模型查詢系統(tǒng),該系統(tǒng)使用語言模型來應(yīng)對(duì)現(xiàn)實(shí)世界中知識(shí)圖譜的不完整性問題。該工作不會(huì)像以前的工作那樣污染知識(shí)圖譜的質(zhì)量,并且在必要時(shí)仍可以幫助提供完整的結(jié)果。在現(xiàn)實(shí)知識(shí)圖譜上的查詢實(shí)驗(yàn)表明,語言模型是減少不完整知識(shí)圖譜和完整結(jié)果集之間差距的一種很有前途的方法。
OpenKG
開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】Linux/ubuntu下apac
- 下一篇: 发送带颜色的MSG