打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式
文 | Severus
NLP的研究者們一直都在嘗試,怎么樣讓模型像人類一樣,學(xué)會“知識”。而最直觀的想法莫過于將人類已經(jīng)總結(jié)出來供機(jī)器解讀的“知識體系”,及其嵌入表示作為額外的特征添加到NLP模型之中。至少,從直覺上看,將知識融入到模型之中,可以讓模型直接“看到”知識體系所帶來的“言外之意”,從而與模型本身的統(tǒng)計(jì)共現(xiàn)特征形成互補(bǔ),以補(bǔ)足訓(xùn)練樣本中部分知識過于稀疏的問題。比如某一實(shí)體A在訓(xùn)練樣本中頻次很低,則可以用與它相似,且頻次較高的實(shí)體B的特征來補(bǔ)充A,或者只是樣本中的表達(dá)比較稀疏,則使用知識體系中的另一種更加常用的表達(dá)來補(bǔ)充(例如:OSX vs MacOS,歌神 vs 張學(xué)友),從而彌補(bǔ)A的特征過于稀疏的問題;或者可以使用A所在的歸類體系中共享的特征來補(bǔ)充A的特征。
然而,模型需要什么樣的知識,要以什么方式將知識整合到模型之中,一直是存有爭議的問題。例如早幾年很多工作嘗試,使用知識圖譜表示,將實(shí)體關(guān)系融合到模型中,在一些任務(wù)上取得了成效,但其最大的限制之一,則是消歧始終難以做到很高的準(zhǔn)確率,其原因在于,知識圖譜所收錄的絕大多數(shù)實(shí)體,信息都是稀疏的(SPO密度很低),它們甚至很難參與到實(shí)體鏈指環(huán)節(jié)之中,所以很多 KGs+NLP 的工作都是在有限的知識圖譜內(nèi)進(jìn)行的,而難以擴(kuò)展到廣域的知識圖譜中。
除知識圖譜外,則也有將通用知識引入到模型之中的工作,例如近兩年很多將中文的組詞應(yīng)用到 NER 的工作,將實(shí)體類別信息應(yīng)用于關(guān)系抽取的工作等,甚至我們可以開更大的腦洞,直接利用預(yù)訓(xùn)練語言模型從海量語料中學(xué)習(xí)到的充分的共現(xiàn)知識,用以表示通用知識,將之應(yīng)用到基于預(yù)訓(xùn)練語言模型的種種方法中。
下面我想要介紹的工作,則是使用大規(guī)模知識圖譜增強(qiáng)模型,做 aspect-level 的情感識別任務(wù),作者聲稱,自己的方法相對 baseline 分別有2.5%~4%的提升。
大規(guī)模知識圖譜增強(qiáng)的 aspect-level 情感識別
論文標(biāo)題:
Scalable End-to-End Training of Knowledge Graph-Enhanced Aspect Embedding for Aspect Level Sentiment Analysis
論文地址:
https://arxiv.org/abs/2108.11656
Aspect-level 的情感識別,即輸入一段文本,詢問該文本對某一個(gè)文本中提到的片段是什么樣的情感傾向。例如句子:However, I can refute that OSX is "FAST". 中,詢問句子中對 OSX 表達(dá)了什么樣的情感。之前的工作很少將這個(gè)任務(wù)的分?jǐn)?shù)刷到80分以上,本文作者則一鼓作氣,將3個(gè)數(shù)據(jù)集的最終指標(biāo)都刷到了80+。
Aspect-level 情感分類的難點(diǎn)在于,aspect 有可能是稀疏的,從而導(dǎo)致模型在“觀察”文本的時(shí)候找不到重點(diǎn),例如上面的例句,OSX 在對應(yīng)的訓(xùn)練樣本中僅僅出現(xiàn)了7次,非常的稀疏,而與之相似的 Microsoft Windows 則出現(xiàn)了37次。而使用訓(xùn)練樣本中相對高頻的 aspect 去補(bǔ)充相對低頻的,又恰恰是知識增強(qiáng)的動機(jī)之一,所以利用知識圖譜來增強(qiáng)這個(gè)任務(wù),看上去相當(dāng)?shù)暮线m。
但是知識圖譜增強(qiáng)又存在兩個(gè)挑戰(zhàn):
大規(guī)模知識圖譜難以完全利用起來,例如 DBPedia 有2200萬節(jié)點(diǎn),1.7億條邊,計(jì)算其中所有實(shí)體的表示顯然也是不現(xiàn)實(shí)的
知識圖譜實(shí)體消歧錯(cuò)誤傳遞,這點(diǎn)在前文也有提到。
針對這兩點(diǎn)挑戰(zhàn),本文都給出了相應(yīng)的解決方案。
▲系統(tǒng)總體結(jié)構(gòu)圖譜表示
本文使用了兩種方式計(jì)算圖譜表示,分別為子圖表示和連通分量表示。其中,連通分量表示則是將整個(gè)知識圖譜中劃分為若干個(gè)連通分量,每個(gè)連通分量看作是一個(gè)節(jié)點(diǎn),從而將大規(guī)模圖縮放成一個(gè)相對較小的圖,例如本文將 DBpedia 的2200萬個(gè)節(jié)點(diǎn)劃分為606個(gè)聯(lián)通分量來計(jì)算表示。計(jì)算方法使用的都是 GraphSAGE,簡單來講就是用某一個(gè)節(jié)點(diǎn)隨機(jī)游走的N跳鄰居層層聚合,得到當(dāng)前節(jié)點(diǎn)的表示。
連通分量表示的方式則使用一種比較樸素的方式解決了大規(guī)模圖譜表示的問題,實(shí)則使用的還是子圖表示的計(jì)算方法。其好處則在于某一個(gè)節(jié)點(diǎn)可以得到的“言外之意”變得更多,更加看上去有關(guān)的信息被利用了。
其中,圖表示的訓(xùn)練方式也分為靜態(tài)訓(xùn)練和端到端訓(xùn)練兩種,靜態(tài)圖表示是先訓(xùn)練好圖表示,再疊加到任務(wù)中,端到端訓(xùn)練則是在任務(wù)訓(xùn)練的同時(shí)也訓(xùn)練圖表示。
去掉歧義噪音
針對歧義噪音問題,作者則是使用 BERT 所學(xué)習(xí)到的統(tǒng)計(jì)共現(xiàn)知識去解決。首先我們可以認(rèn)為,BERT 所學(xué)到的文本表示,聚合了很多的信息,而對于一個(gè) aspect ,它的表示則聚合了其描述信息、分布信息等,那么,圖譜嵌入空間上相近的實(shí)體,則在 BERT 學(xué)到的表示空間里面也應(yīng)該有較高的相似性,但BERT聚合到的信息又太多了,所以需要將所需要的信息相辦法抽取出來。所以,定義兩個(gè)實(shí)體和的相似函數(shù)為:
其中B是可訓(xùn)練的參數(shù),和分別是實(shí)體和實(shí)體的BERT表示的[CLS]向量。然后分別采樣在圖譜表示空間里距離近的實(shí)體和距離遠(yuǎn)的實(shí)體作為正例和負(fù)例,訓(xùn)練參數(shù)B,loss為:
其中,和是相近實(shí)體,和則是不相近的實(shí)體,該目標(biāo)是盡可能讓BERT學(xué)到的表示和乘上參數(shù)矩陣B之后,與圖嵌入空間里面的距離更加相關(guān)。
而最終使用的實(shí)體的表示則為:
也就是說,如果實(shí)體的BERT表示的相似度和圖譜嵌入空間內(nèi)的相似度出現(xiàn)了矛盾,則屏蔽掉它的圖譜表示,作者認(rèn)為這樣可以屏蔽掉很多消歧算法帶來的噪音。
實(shí)驗(yàn)結(jié)果
▲實(shí)驗(yàn)結(jié)果上表中,GS后綴是使用了靜態(tài)訓(xùn)練得到的表示增強(qiáng)的方法,GS-E后綴則是在原有基礎(chǔ)上使用了端到端訓(xùn)練得到的表示增強(qiáng)的方法,[probe]后綴則是在原有方法基礎(chǔ)上使用了去掉歧義噪音策略的方法。我們可以看到,在3個(gè)數(shù)據(jù)集上,文本所提出的方法都各有不算小的提升,而尤其去掉歧義噪音之后,分別都得到了SOTA的結(jié)果,可見作者的方法還是有一定增益的。
順便一提,這個(gè)結(jié)果里面作者玩兒了個(gè)文字游戲,比如SDGCN-BERT-GS-E[probe]的結(jié)果提升了2.79%,這個(gè)結(jié)果是這么是計(jì)算出來的:(83.62-81.35)/81.35*100%=2.79%,同理其他的提升也是這么算出來的,并不是絕對分?jǐn)?shù)的提升,而因?yàn)榉帜覆皇?00,所以提升數(shù)值都需要相對減少一些。
小結(jié)
我認(rèn)為,本文還欠缺了一個(gè)分析實(shí)驗(yàn),即連通分量表示是否是有用的。直觀上來看,將2200萬個(gè)節(jié)點(diǎn)硬性劃分成606個(gè)連通分量,去計(jì)算整個(gè)圖的表示,總是感覺過于樸素和粗暴了。畢竟作者沒有講他是以什么樣的標(biāo)準(zhǔn)去劃分,我們也沒有辦法去評析這種劃分方式是否合理,同時(shí)我們也沒法知道,連通分量表示在這篇工作中到底起到了什么樣的作用,是否僅僅需要子圖表示加上去除歧義噪音的策略,就足以得到這么好的效果了呢?甚至極端情況下,如果數(shù)據(jù)集里面的 bias 比較大,按照這種劃分方式,是否會將絕大多數(shù) aspect 都分配到同一個(gè)連通分量里面,從而導(dǎo)致這個(gè)特征變成了一個(gè)廢特征呢?
并且,感覺上連通分量表示則是為了大規(guī)模圖譜而大規(guī)模圖譜。不可否認(rèn),這篇文章使用圖譜增強(qiáng)任務(wù),得到了一定的提升,但是這種提升,我認(rèn)為更多還是在于利用有限、固定的圖譜的信息,加上噪音消除策略而達(dá)成的,真正到了廣域數(shù)據(jù),需要大規(guī)模圖譜的場景下,所要面對的問題絕不僅僅是計(jì)算瓶頸那么簡單。
例如,在開頭我就提到的絕大多數(shù)實(shí)體過于稀疏的問題,與之相伴的還有收錄的問題。世界上不可能存在一個(gè)圖譜,能夠收錄盡世界上所有的事實(shí)知識,莫說圖譜,牛津英文詞典的收錄情況就已經(jīng)回答了這個(gè)問題。哪怕相關(guān)研究者們不斷地更新、迭代圖譜自動收錄算法,和圖譜自動補(bǔ)全算法,但是也難以趕上新知識的產(chǎn)生速度,同時(shí)圖譜要保證事實(shí)準(zhǔn)確、高質(zhì)量,那么其準(zhǔn)入門檻也不可能允許超高速的收錄。就說相對還比較固定的專業(yè)領(lǐng)域知識,也面臨著語言不全等問題,例如生物名錄數(shù)據(jù)庫,英文數(shù)據(jù)庫中也存在很多中文數(shù)據(jù)庫里面沒有的條目。所以,我們沒法指望知識圖譜能夠枚舉世界上所有的事實(shí)。
收錄問題也不是最關(guān)鍵的因素,畢竟,沒有收錄的知識,我們可以在任務(wù)里面不去使用它,那無非它的效果退化到原始模型的效果而已。信息稀疏所引發(fā)的消歧問題,也可以通過置信度閾值去控制它,保證實(shí)體鏈指的準(zhǔn)確率,避免錯(cuò)誤傳遞。但是拋開這兩個(gè)問題,最關(guān)鍵的還是統(tǒng)計(jì)模型與知識圖譜的特性。
如果使用統(tǒng)計(jì)模型去將知識圖譜嵌入到連續(xù)空間中,則必然要面對統(tǒng)計(jì)模型的泛化能力,但是,事實(shí)知識是不可泛化的(例如當(dāng)我們詢問GPT-3/ERNIE3.0,太陽有幾只眼睛/我的腳有幾只眼睛的時(shí)候,這個(gè)問題事實(shí)上是不成立的,但是統(tǒng)計(jì)模型總是會泛化出一個(gè)結(jié)果)。到了大規(guī)模稠密知識圖譜上,這個(gè)問題則會更加嚴(yán)重,例如圖嵌入多是使用隨機(jī)游走采樣計(jì)算節(jié)點(diǎn)相似性,但是知識圖譜上絕大部分的多跳路徑是不成立的,其邊是不可傳遞的。例如:劉德華的搭檔是劉偉強(qiáng),劉德華的老婆是朱麗倩,那么劉偉強(qiáng)和朱麗倩之間有什么關(guān)系呢?如果采樣過程不受控制,這三者在統(tǒng)計(jì)空間里面可能會非常接近,哪怕受了控制,保不齊通過其他采樣的泛化,還是會掛上關(guān)系。
而在統(tǒng)計(jì)模型里面,想要定死了這些規(guī)則,恐怕要通過無數(shù)的樣本去拉近、推遠(yuǎn)一些表示,才有可能完成在搜索空間里面構(gòu)建出來一套完整的規(guī)則,相比于直接用符號推理來講,我認(rèn)為得不償失。
實(shí)際上哪怕知識圖譜補(bǔ)全任務(wù)里面,也有很多數(shù)據(jù)是不可推理數(shù)據(jù),那些數(shù)據(jù)很有可能就是用統(tǒng)計(jì)特征算出來,扔到數(shù)據(jù)集里面的,例如一個(gè)人是美國人,那他的信仰是天主教之類的,當(dāng)年我做圖譜表示的同事分析結(jié)論,一些分?jǐn)?shù)很難刷,“很難”的數(shù)據(jù)集里面,這類數(shù)據(jù)似乎也占據(jù)了相當(dāng)大的比重。
但是,在benchmark上,圖譜增強(qiáng)又往往能帶來一些看上去不錯(cuò)的增益,我認(rèn)為,其主要在于這類任務(wù)面對的都是有限、固定的子集,例如本文中,使用到的子圖規(guī)模100到1000不等,這種規(guī)模之下,則絕大多數(shù)情況下可以規(guī)避掉我上面提到的兩個(gè)問題。也就是說,在固定垂直領(lǐng)域下,信息密度大,沒有消歧壓力、不可控泛化的壓力,圖譜增強(qiáng)是有用的,但是一旦到了開放領(lǐng)域,則不得不面對上面的問題。
萌屋作者:Severus
Severus,在某廠工作的老程序員,主要從事自然語言理解方向,資深死宅,日常憤青,對個(gè)人覺得難以理解的同行工作都采取直接吐槽的態(tài)度。筆名取自哈利波特系列的斯內(nèi)普教授,覺得自己也像他那么自閉、刻薄、陰陽怪氣,也向往他為愛而偉大。
作品推薦
深度學(xué)習(xí),路在何方?
數(shù)據(jù)還是模型?人類知識在深度學(xué)習(xí)里還有用武之地嗎?
在錯(cuò)誤的數(shù)據(jù)上,刷到 SOTA 又有什么意義?
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对比学习有多火?文本聚类都被刷爆了…
- 下一篇: Calibration: 一个工业价值极