开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/k-zsl
GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL
開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)
貢獻(xiàn)者:浙江大學(xué)(耿玉霞、陳卓、陳華鈞),牛津大學(xué)(陳矯彥),愛丁堡大學(xué)(Jeff Z. Pan),華為(苑宗港)
摘要
本開放資源由浙江大學(xué)知識引擎實驗室以及牛津大學(xué)的陳矯彥研究員和愛丁堡大學(xué)的Jeff Z. Pan教授聯(lián)合貢獻(xiàn)。在此開放資源中,我們?yōu)榱銟颖緦W(xué)習(xí)相關(guān)技術(shù)貢獻(xiàn)了類別語義知識圖譜,圖譜囊括了類別的屬性信息和文本信息、結(jié)構(gòu)化知識信息,以及語義更豐富的邏輯約束信息等,包含了比以往工作更豐富的類別語義知識,為推動知識驅(qū)動的零樣本學(xué)習(xí)研究提供數(shù)據(jù)支撐。
1. 前言:知識驅(qū)動的零樣本學(xué)習(xí)
近年來,深度學(xué)習(xí)技術(shù)依托強大的計算資源、復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模的標(biāo)注數(shù)據(jù)集在視覺、語言、醫(yī)學(xué)、金融等廣泛的研究領(lǐng)域取得了顯著的成就。然而,在現(xiàn)實應(yīng)用場景中,尤其是在開放世界的背景假設(shè)下,隨時會有一些新的概念/對象出現(xiàn),持續(xù)地為這些新概念/對象收集樣本并進(jìn)行標(biāo)注是極為不現(xiàn)實的。因此,研究人員提出了零樣本學(xué)習(xí)(Zero-shot Learning, ZSL)的概念,用于處理沒有標(biāo)注樣本的情況下概念/對象的預(yù)測問題,以解決現(xiàn)有的深度學(xué)習(xí)模型尤其是有監(jiān)督學(xué)習(xí)模型對大量標(biāo)注數(shù)據(jù)(即訓(xùn)練樣本)的依賴。
借助一個直觀的例子,我們首先對ZSL的工作原理做一個簡單的介紹:某動物園內(nèi),小明在爸爸的帶領(lǐng)下先后認(rèn)識了馬、老虎和熊貓三種動物,隨后爸爸讓小明在動物園里找一種之前從未見過的動物——斑馬,并告訴了小明關(guān)于斑馬的信息:“斑馬的體型很像馬,它身上還有像老虎一樣的條紋,而且它像熊貓一樣是黑色色的”。最后,小明根據(jù)爸爸的提示,在動物園里找到了斑馬。
上述例子描述了一個典型的人類推理的過程——利用常識或者某個領(lǐng)域的專業(yè)知識(馬、老虎、熊貓和斑馬的描述),在腦海里推理出新對象的具體形態(tài),從而對新對象進(jìn)行辨認(rèn)。ZSL所做的正是模仿人的這種推理能力,依賴對象間的語義聯(lián)系,將模型在有標(biāo)注樣本的、訓(xùn)練過的對象(Seen Object,即上述例子中的馬、老虎、熊貓)上學(xué)習(xí)到的特征遷移到?jīng)]有標(biāo)注樣本、未在訓(xùn)練集中出現(xiàn)過的新對象(Unseen Object,即斑馬)上,從而解決這些沒有訓(xùn)練樣本的對象的預(yù)測問題。
圖1?知識驅(qū)動的零樣本學(xué)習(xí)
對象間的語義聯(lián)系通常依賴一些外部知識建立,如自然語言文本,這些外部知識從另一維度對象進(jìn)行了描述(區(qū)別于對象的樣本),且相比于標(biāo)注樣本更容易獲取(如百科知識、在線語料)。其他的一些領(lǐng)域特定的語義知識如屬性描述、類別層次等描述了領(lǐng)域內(nèi)概念間的關(guān)系,為該領(lǐng)域的零樣本預(yù)測問題提供了幫助。
2. 資源構(gòu)建及概況
借助知識圖譜強大的知識表示和知識融合能力,我們提出使用知識圖譜建模對象間的語義聯(lián)系,并將現(xiàn)有的語義關(guān)系補充到圖譜資源中,同時引入更豐富的關(guān)系類型,旨在解決現(xiàn)有工作中對象關(guān)系語義不足,以及缺乏基準(zhǔn)數(shù)據(jù)集以公平比較各類知識驅(qū)動的零樣本學(xué)習(xí)方法的問題。我們?yōu)閮蓚€典型的、來自不同領(lǐng)域的零樣本學(xué)習(xí)問題構(gòu)建了資源,即零樣本圖像分類和零樣本知識圖譜補全任務(wù),下面我們將對這兩個任務(wù)資源的構(gòu)建過程進(jìn)行簡單介紹,具體的構(gòu)建細(xì)節(jié)可參見原文(https://arxiv.org/pdf/2102.07339.pdf)。
零樣本圖像分類任務(wù)(ZS-IMGC)資源構(gòu)建過程
零樣本圖像分類任務(wù)(Zero-shot Image Classification, ZS-IMGC),是指分類未在訓(xùn)練集中出現(xiàn)的類別的圖像。在訓(xùn)練集中出現(xiàn)過的類別定義為seen類別,而未出現(xiàn)的類別定義為unseen類別,我們使用知識圖譜為這些類別標(biāo)簽構(gòu)建它們之間的語義聯(lián)系。資源的構(gòu)建過程如下:
(1)我們首先使用WordNet中定義的類別層次關(guān)系建立KG的基本結(jié)構(gòu),其中 每個類別對應(yīng) WordNet 中的一個實體節(jié)點,由 WordNet 實體 ID 唯一標(biāo)識,不同的節(jié)點之間通過subClassOf關(guān)系連接;
(2)基于此結(jié)構(gòu),我們加入類別的屬性信息。屬性同樣也被表示為節(jié)點,并通過自定義的ID唯一標(biāo)識。對于類別節(jié)點和屬性節(jié)點之間關(guān)系的定義,我們通過對屬性分組/分類實現(xiàn),這是因為,類別的部分屬性信息通常描述了對象相同方面的特征,如紅色、白色、黑色等屬性均描述了對象的外觀顏色,對于相同類別的屬性,我們?yōu)槠涠x對應(yīng)的連接關(guān)系,如為顏色屬性定義hasColor屬性。此外,對于屬性的歸類,同時也豐富了屬性間的關(guān)系;
(3)接下來,我們在圖譜中加入當(dāng)前實體的文本描述信息。考慮到類別間具有明顯的層次關(guān)聯(lián)關(guān)系,且父類別與子類別間名稱較相似,如紅狐、黑狐等都是狐貍類別的子類,因此,我們選擇類別及屬性的名稱作為文本語義加入圖譜,并通過label關(guān)系,與當(dāng)前圖譜進(jìn)行關(guān)聯(lián);
(4)此外,我們從外部KG如ConceptNet中抽取與當(dāng)前類別和屬性相關(guān)的知識。具體地,我們利用類別和屬性的文本信息以字符串匹配的方式與外部 KG中的實體進(jìn)行對齊,并抽取這些實體1跳范圍內(nèi)的三元組加入當(dāng)前圖譜中。對齊后的實體通過 sameAs 關(guān)系關(guān)聯(lián)。此外,為保證抽取知識的質(zhì)量,ConceptNet中一些不相關(guān)的關(guān)系在抽取的過程中被過濾;
(5)除上述語義信息外,我們在圖譜中也引入了類別間以及類別和屬性間的邏輯互斥關(guān)系。這是因為很多類別雖然視覺上存在較大差異但存在數(shù)量不少的共享屬性,如“斑馬”、“老虎”都有屬性“條紋”、“尾巴”和“肌肉”等。大量的共享屬性,使得這些視覺差異較大的類別,很容易在特征遷移時互相影響,因此,我們在這些類別之間添加互斥關(guān)系。同時我們也類別和屬性間的互斥關(guān)系,如“斑馬不吃魚”聲明了“斑馬”和“吃魚”間的互斥關(guān)系。
經(jīng)上述構(gòu)建過程,我們?yōu)閆S-IMGC任務(wù)構(gòu)建了領(lǐng)域特定的知識圖譜語義資源,構(gòu)建的片段如下圖所示:
我們以ZS-IMGC任務(wù)的三個基準(zhǔn)數(shù)據(jù)集AwA、ImNet-A和ImNet-O為例構(gòu)建了該資源,資源的統(tǒng)計信息如下表所示。
零樣本知識圖譜補全任務(wù)(ZS-KGC)資源構(gòu)建過程
該任務(wù)主要是為知識圖譜補全過程中出現(xiàn)的新關(guān)系建模語義知識。不同于為ZS-IMGC構(gòu)建的知識圖譜資源,針對KG(即data graph)本身零樣本的問題,我們利用知識圖譜本體層的語義信息為知識圖譜關(guān)系構(gòu)建語義圖譜(即schema graph)。
(1)我們首先利用RDFS中的術(shù)語定義schema graph的基本結(jié)構(gòu),不同于一般KG中關(guān)系被建模為實體間的連接邊,在schema graph中,關(guān)系也可以出現(xiàn)在實體的位置,以此建模關(guān)系之間的關(guān)系,即元關(guān)系。具體地,我們利用rdfs:subPropertyOf定義關(guān)系間的層次關(guān)系,rdfs:domain和rdfs:range定義分別定義關(guān)系的頭尾實體類型約束,以及rdfs:subClassOf 定義實體類型的層次結(jié)構(gòu),下圖展示了該 schema的一個片段。
(2)隨后,我們在schema graph中加入實體類型和關(guān)系的文本描述信息,引入關(guān)系的文本語義,這些文本通過rdfs:comment屬性與當(dāng)前圖譜進(jìn)行關(guān)聯(lián);
(3)除上述語義外,我們引入OWL術(shù)語描述關(guān)系間更復(fù)雜的關(guān)系,主要包括兩類,一類是對關(guān)系間關(guān)系的表達(dá),如等價關(guān)系、互逆關(guān)系、互斥關(guān)系以及組合關(guān)系,這些關(guān)系對于關(guān)系間關(guān)系的建立有重要幫助,如已知一個seen關(guān)系和一個unseen關(guān)系互為逆關(guān)系,則可以通過該seen關(guān)系的三元組直接推理預(yù)測出unseen的部分三元組。另一類是關(guān)系的屬性信息,如對稱&非對稱、自反&非自反、函數(shù)&反函數(shù)、傳遞性等,這些屬性可以幫助unseen關(guān)系進(jìn)行更好的預(yù)測。
經(jīng)上述構(gòu)建過程,我們?yōu)閆S-KGC任務(wù)構(gòu)建了領(lǐng)域特定的本體語義資源,構(gòu)建的片段如下圖所示:
我們以ZS-KGC任務(wù)的兩個基準(zhǔn)數(shù)據(jù)集NELL-ZS和Wikidata-ZS為例構(gòu)建了該資源,資源的統(tǒng)計信息如下表所示。
3. 資源用途
對于構(gòu)建后的資源,我們可以從以下幾個方面進(jìn)行利用:
(1)首先是用于提升ZSL模型性能。現(xiàn)有ZSL方法在訓(xùn)練模型時,通常利用從語義知識中學(xué)習(xí)的語義向量,如屬性向量和文本詞向量。相應(yīng)地,在利用基于知識圖譜的語義資源增強ZSL模型性能時,可借助語義嵌入的相關(guān)技術(shù)如知識圖譜表示學(xué)習(xí)和本體表示學(xué)習(xí)等對圖譜進(jìn)行向量化的表示,得到類別/關(guān)系的語義向量,應(yīng)用到ZSL模型中;
(2)該資源還可應(yīng)用于為ZSL模型提供可解釋性。圖譜中包含的類別間的共享知識可以很好地為類別間特征的可遷移性提供佐證。相比于使用通用域知識圖譜為模型提供可解釋性,我們所構(gòu)建的知識圖譜資源更加領(lǐng)域適配;
(3)從資源的統(tǒng)計數(shù)據(jù)中,我們可以發(fā)現(xiàn),我們構(gòu)建的圖譜資源具有樣本分布不均衡、部分關(guān)系/元關(guān)系具有對稱性,以及存在組合邏輯語義等特點,這些語義特征依賴現(xiàn)有的知識圖譜表示學(xué)習(xí)及本體表示學(xué)習(xí)技術(shù)無法很好地捕獲,因此,我們希望基于此開放資源,探究表達(dá)能力更強、更魯棒的語義嵌入技術(shù),從而在深度學(xué)習(xí)的背景;
4. 總結(jié)
在本開放資源中,我們?yōu)閬碜詢蓚€不同領(lǐng)域的零樣本學(xué)習(xí)任務(wù)構(gòu)建了基于知識圖譜的類別語義信息,并詳解介紹了該語義資源的構(gòu)建過程,構(gòu)建的資源整合 ZSL 現(xiàn)有語義信息的同時,也為 ZSL 任務(wù)帶來了語義更豐富的知識。這些知識 為 ZSL 模型定義了更豐富的類別/關(guān)系描述信息,從而幫助其進(jìn)行更好的特 征遷移,同時,圖譜資源也為 ZSL 模型的可解釋性等任務(wù)帶來了更豐富的 領(lǐng)域知識。我們希望此開放資源,可以更好地為研究知識驅(qū)動的零樣本學(xué)習(xí)技術(shù)以及表達(dá)能力更強的語義嵌入技術(shù)提供支持,探究有效的神經(jīng)-符號集成(Neural-Symbolic Integration)模式,促進(jìn)人工智能系統(tǒng)的進(jìn)步。
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - COLING2020 |
- 下一篇: 新书速递 | 《知识图谱:方法、实践与应