天天说常识推理,究竟常识是什么?
文 | 花小花Posy
寫這篇文章的時候,我去搜了搜常識的例子。
“睜開眼睛打噴嚏是不可能的。(還真沒留意。)““北極熊是左撇子。“”長頸鹿沒辦法咳嗽。”
呃?好吧,我需要補一補自己的常識。那么這些所謂的“常識”真的是常識嗎?
關(guān)于常識的研究近年來是比較火熱的話題,在NLP領(lǐng)域,研究的方向主要有兩條線,一是各種benchmark數(shù)據(jù)集的構(gòu)建,各種刷榜以測試我們的模型是否具備某些類型的常識;二是常識知識圖譜的構(gòu)建,關(guān)注點主要在于如何挖掘常識知識、構(gòu)建結(jié)構(gòu)化常識知識。兩條線的交叉點在于如何利用常識知識輔助各類下游任務(wù)。
說到常識知識圖譜,大家可能首先想到的是流行的ConceptNet。
和常見的知識圖譜一樣,常識知識圖譜用關(guān)系三元組(h,r,t)來表示一條常識知識,h和t可以是自然語言組成的單詞、短語或者句子,r表示h和t之間的關(guān)系。比如在ConceptNet中,關(guān)系Causes of的一個三元組是(起床,Causes of,媽媽叫)。
那么除了ConceptNet呢?近年來,得益于眾包機制,研究人員們開始構(gòu)建各種知識圖譜(KG)。有正式命名為常識KG的,比如ATOMIC、WebChild;也有包含常識知識但非正式命名為常識KG的知識源,比如WordNet、VerbNet。
所以常識知識領(lǐng)域的研究看起來像是遍地開花,但每個知識源的格式、創(chuàng)建的方法、知識類型的覆蓋率都各不相同。對于現(xiàn)存的常識KGs到底包含了哪些類型的常識知識,每個KG對每種類型的覆蓋程度是怎樣的,以及哪些類型對于下游常識推理任務(wù)是有用的,缺乏一個統(tǒng)一的定論。今天給大家介紹的這篇文章,正好填補了這一空缺。
論文題目:
Dimensions of Commonsense Knowledge
論文鏈接:
https://arxiv.org/pdf/2101.04640.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞【0310】下載論文PDF~
本文核心想要探究兩個問題:
1. 如何研究現(xiàn)有常識KGs中包含了哪些維度的常識知識?
2. 對于常識推理任務(wù),常識知識圖譜有多重要?
為什么研究這兩個問題是重要的呢?因為直覺上講,常識知識包含了很多世界知識,將其注入下游常識推理任務(wù)可以帶來額外的推理知識,從而提升模型的性能。但是實際情況卻是:注入常識知識所帶來的影響十分有限,它給下游任務(wù)帶來的提升往往比預(yù)訓(xùn)練語言模型要小很多。因此,統(tǒng)一化現(xiàn)有的常識KGs,并探究其重要性對常識KGs、下游推理任務(wù)的未來工作都是有啟發(fā)意義的。
常識知識的維度有哪些?
在探究常識知識圖譜的重要性之前,作者首先對現(xiàn)有的20個包含常識的知識源進(jìn)行了調(diào)研,對它們進(jìn)行概括分類,并從中挑選了7個進(jìn)行研究。研究的前提是常識知識在關(guān)系維度上的統(tǒng)一。文中對現(xiàn)有常識KGs中包含的常識知識的關(guān)系類型進(jìn)行整理、重新聚類后定義了13個常識維度(如下表)。
每個維度包含若干個具體的關(guān)系。比如維度distinctness包含ConcpetNet中的{Antonym,DistinctFrom}兩個具體關(guān)系。(ps:每個知識源的關(guān)系標(biāo)簽不一樣,所以每個維度包含的具體關(guān)系的名字也不相同,詳情參加論文中的Table2)。統(tǒng)一了維度后,就可以從維度的視角統(tǒng)一研究各個常識KGs中存在的常識知識,也可以融合各個KGs的知識進(jìn)行知識的增強。
本文既可以看成是對常識知識的維度的正式劃分,也可以看成是對常識知識融合[1]是有意義的一個證明。
在統(tǒng)一所有常識KGs的維度的基礎(chǔ)上,本文首先對各個常識KGs中包含常識維度進(jìn)行了統(tǒng)計分析,對比了它們的維度知識的數(shù)量、覆蓋度、冗余度;然后探究哪些維度的常識有助于提升對下游常識推理任務(wù)的性能,具體的提升有多大?哪些常識維度已經(jīng)存在于預(yù)訓(xùn)練語言模型,哪些仍舊缺失?下面我們一起來看看這些問題的答案吧。
各知識源包含的常識維度差距大嗎?
整體來講,部分知識源包含的維度較多,但每個維度的數(shù)量分布差距大;而另一些則是包含幾種較少的維度,但每個維度的數(shù)量都很多。維度-知識源分布數(shù)據(jù)如下:可以看出,13個關(guān)系維度在知識源中的分布是不平衡的。
被較好捕捉的關(guān)系維度更多涉及詞匯關(guān)系和分類關(guān)系,比如lexical, similarity, distinctictness, taxonomic。
而部分維度則非常罕見,比如comparative維度只出現(xiàn)在WebChild,creation維度只出現(xiàn)在了兩個知識源中,并且只有500條三元組。
在此基礎(chǔ)上,我們可能會接著問,在多個知識源中找到的同一維度的知識有重復(fù)的嗎?作者也好奇,于是在文中對各個知識圖譜包含的相同知識的比例進(jìn)行了統(tǒng)計分析。
各知識源包含的相同常識多嗎?
當(dāng)兩個知識源A和B包含一條相同三元組時,它們就包含一條相同的常識。對于每個維度,計算任意兩個知識源之間的冗余度。衡量標(biāo)準(zhǔn)是Jaccard score,即共享的三元組數(shù)量占兩個知識源的三元組的總和的比例:。
文中的統(tǒng)計數(shù)據(jù)表明,各個數(shù)據(jù)源之間的整體知識冗余度是比較低的。 常見的維度有稍微高一些的冗余度,比如taxonomic,similarity維度的冗余度在0.02到15.19中間波動;而其余維度,如quality,utility,temporal等的冗余度接近0。各個知識源之間的低冗余度也證明了論文中將所有常識KGs融合在一起是有意義的。
鑒于預(yù)訓(xùn)練語言模型(PLM)已成為各個領(lǐng)域的baseline,常識領(lǐng)域亦不例外。在后面的實驗中,作者主要想探究PLM中包含的常識知識和常識KGs中包含的常識知識的關(guān)系是怎樣的。
語言模型能對常識KGs聚類嗎?
最近很多工作都證明PLM是可以捕捉到到一定程度的常識知識的。那么PLM對于常識關(guān)系的無監(jiān)督聚類和本文中的基于13個維度的聚類結(jié)果會相同嗎?
文中將使用關(guān)系模板將每一個三元組轉(zhuǎn)換為句子,并傳遞給RoBERTa-large以獲取其向量表示。得到所有邊的向量表示后,用k-Means將其聚為13類,然后與文中的13個維度的聚類進(jìn)行對比。作者發(fā)現(xiàn)基于無監(jiān)督的聚類和基于維度的聚類的相似度很低(ajusted rand index =0.235)。進(jìn)一步,作者隨機采樣5000條邊,并使用UMAP將K-means的聚類結(jié)果可視化。通過進(jìn)一步觀察每個類別中的內(nèi)容,作者發(fā)現(xiàn):
部分類別有被很好的劃分,比如上圖中的類5,其中主要包含了distinctness的信息。類[4 7 8]大部分包含similarity維度的知識,類[1 6]則包括temporal、desire/goal維度的邊。
另一部分類別則沒有被很好的劃分,比如類[0, 2, 9, 10, 11, and 12],其中內(nèi)容被lexical和relational—other維度占主導(dǎo)。
對相同的5000條邊,作者使用UMAP對文中的13個維度也進(jìn)行了可視化,并比較了兩組數(shù)據(jù)中類別的Jaccard score:高Jaccard表明兩個類別包含的內(nèi)容相似度高。可以看出RoBERTa的類5和和文中定義distinctness的類的一致性是極高的,說明RoBERTa對于該類內(nèi)容的表示與其它維度是有很好的區(qū)分性的。而其余大部分維度的相似度都是較低的。說明語言模型對不同關(guān)系維度的表示和人對不同關(guān)系維度的劃分是存在較大差異的。
哪些常識維度有助于常識QA任務(wù)?
這部分終于來到了開頭我們提出的問題,也是小花最感興趣的問題:各個維度常識知識給下游常識QA任務(wù)帶來的提升是怎樣的?
此處采用的模型[2]是將常識KG中的三元組知識轉(zhuǎn)換為QA數(shù)據(jù),并預(yù)訓(xùn)練語言模型,然后在兩個常識數(shù)據(jù)集(CSQA和SIQA)上進(jìn)行zero-shot的評估。
首先,我們看看各個維度的常識知識給下游常識QA任務(wù)帶來的整體提升是怎樣的?對比的baseline是直接應(yīng)用RoBERTa-large,沒有將任何常識KGs中的知識傳遞給模型。從表中可以看到:加入各個維度的常識都提升了模型性能,但是各個維度帶來的提升幅度差異卻很大。很明顯,紅框中的維度帶來的提升比藍(lán)框要大很多。
這會不會是因為某些維度的常識已經(jīng)被語言模型捕捉到了呢?所以作者將RoBERTa-large直接應(yīng)用到合成的QA數(shù)據(jù),以此觀察預(yù)訓(xùn)練語言模型在各個維度上的表現(xiàn)。果然不出所料啊!實驗結(jié)果發(fā)現(xiàn),預(yù)訓(xùn)練語言模型在lexical維度上的正確率高達(dá)90.1%,而在其它類的正確率卻低很多。該實驗說明:
對于PLM本身已經(jīng)捕捉的維度,再加入外部知識,意義并不大。
加入預(yù)訓(xùn)練語言模型中缺乏一些維度的知識(比如quality,temporal),進(jìn)一步訓(xùn)練語言模型才能帶來額外的提升。 這里的實驗和分析對于往后往預(yù)訓(xùn)練語言模型中加入何種知識是有指導(dǎo)意義的。不過鑒于不同維度給CSQA和SIQA帶來的提升也存在差異性,具體加入什么維度知識有利于提升下游任務(wù)性能,還需要結(jié)合下游任務(wù)需要什么樣維度的知識。
除了上面的實驗外,作者探究了各個維度的常識知識給不同類型的問題帶來的提升是怎樣的?通過給下游任務(wù)的問題進(jìn)行類型劃分,并對比加入不同維度知識會怎樣影響不同類型的問題。在CSQA和SIQA任務(wù)上的實驗結(jié)果差異較大,整體來講CSQA的問題類型需要的常識維度比較多,而SIQA中的問題只有加入特定維度的知識時才會對特定的問題有提升。
小結(jié)
本文首先對于目前20個常識知識源進(jìn)行了總結(jié),并強調(diào)了其之間的關(guān)聯(lián)性,并由此提煉出現(xiàn)常識關(guān)系的13個維度,最終通過實驗對各知識源所含的常識維度、冗余性,預(yù)訓(xùn)練語言模型包含的維度及各維度對下游常識QA任務(wù)的影響進(jìn)行了分析。實驗表明distinctness和lexical知識對下游任務(wù)沒有明顯幫助,temporal、desire/goal維度知識對下游任務(wù)提升較大。
萌屋作者:花小花Posy
目前在墨爾本大學(xué)NLP組讀Ph.D.,主要感興趣方向包括常識問答,知識圖譜,低資源知識遷移。期待有生之年可見證機器真正理解常識的時刻! 知乎ID:花小花Posy
作品推薦:
1.我拿樂譜訓(xùn)了個語言模型!
2.一句話超短摘要,速覽752篇EMNLP論文
3.Facebook提出生成式實體鏈接、文檔檢索,大幅刷新SOTA!
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]CSKG: The CommonSense Knowledge Graph https://arxiv.org/pdf/2012.11490.pdf
[2]Knowledge-driven Data Construction for Zero-shot Evaluationin Commonsense Question Answering https://arxiv.org/pdf/2011.03863.pdf
總結(jié)
以上是生活随笔為你收集整理的天天说常识推理,究竟常识是什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 动手做个DialoGPT:生成式多轮对话
- 下一篇: 从逻辑回归到最大熵模型