日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式

發(fā)布時(shí)間:2024/7/5 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | Severus

NLP的研究者們一直都在嘗試,怎么樣讓模型像人類一樣,學(xué)會“知識”。而最直觀的想法莫過于將人類已經(jīng)總結(jié)出來供機(jī)器解讀的“知識體系”,及其嵌入表示作為額外的特征添加到NLP模型之中。至少,從直覺上看,將知識融入到模型之中,可以讓模型直接“看到”知識體系所帶來的“言外之意”,從而與模型本身的統(tǒng)計(jì)共現(xiàn)特征形成互補(bǔ),以補(bǔ)足訓(xùn)練樣本中部分知識過于稀疏的問題。比如某一實(shí)體A在訓(xùn)練樣本中頻次很低,則可以用與它相似,且頻次較高的實(shí)體B的特征來補(bǔ)充A,或者只是樣本中的表達(dá)比較稀疏,則使用知識體系中的另一種更加常用的表達(dá)來補(bǔ)充(例如:OSX vs MacOS,歌神 vs 張學(xué)友),從而彌補(bǔ)A的特征過于稀疏的問題;或者可以使用A所在的歸類體系中共享的特征來補(bǔ)充A的特征

然而,模型需要什么樣的知識,要以什么方式將知識整合到模型之中,一直是存有爭議的問題。例如早幾年很多工作嘗試,使用知識圖譜表示,將實(shí)體關(guān)系融合到模型中,在一些任務(wù)上取得了成效,但其最大的限制之一,則是消歧始終難以做到很高的準(zhǔn)確率,其原因在于,知識圖譜所收錄的絕大多數(shù)實(shí)體,信息都是稀疏的(SPO密度很低),它們甚至很難參與到實(shí)體鏈指環(huán)節(jié)之中,所以很多 KGs+NLP 的工作都是在有限的知識圖譜內(nèi)進(jìn)行的,而難以擴(kuò)展到廣域的知識圖譜中。

除知識圖譜外,則也有將通用知識引入到模型之中的工作,例如近兩年很多將中文的組詞應(yīng)用到 NER 的工作,將實(shí)體類別信息應(yīng)用于關(guān)系抽取的工作等,甚至我們可以開更大的腦洞,直接利用預(yù)訓(xùn)練語言模型從海量語料中學(xué)習(xí)到的充分的共現(xiàn)知識,用以表示通用知識,將之應(yīng)用到基于預(yù)訓(xùn)練語言模型的種種方法中。

下面我想要介紹的工作,則是使用大規(guī)模知識圖譜增強(qiáng)模型,做 aspect-level 的情感識別任務(wù),作者聲稱,自己的方法相對 baseline 分別有2.5%~4%的提升。

大規(guī)模知識圖譜增強(qiáng)的 aspect-level 情感識別

論文標(biāo)題
Scalable End-to-End Training of Knowledge Graph-Enhanced Aspect Embedding for Aspect Level Sentiment Analysis

論文地址
https://arxiv.org/abs/2108.11656

Aspect-level 的情感識別,即輸入一段文本,詢問該文本對某一個(gè)文本中提到的片段是什么樣的情感傾向。例如句子:However, I can refute that OSX is "FAST". 中,詢問句子中對 OSX 表達(dá)了什么樣的情感。之前的工作很少將這個(gè)任務(wù)的分?jǐn)?shù)刷到80分以上,本文作者則一鼓作氣,將3個(gè)數(shù)據(jù)集的最終指標(biāo)都刷到了80+。

Aspect-level 情感分類的難點(diǎn)在于,aspect 有可能是稀疏的,從而導(dǎo)致模型在“觀察”文本的時(shí)候找不到重點(diǎn),例如上面的例句,OSX 在對應(yīng)的訓(xùn)練樣本中僅僅出現(xiàn)了7次,非常的稀疏,而與之相似的 Microsoft Windows 則出現(xiàn)了37次。而使用訓(xùn)練樣本中相對高頻的 aspect 去補(bǔ)充相對低頻的,又恰恰是知識增強(qiáng)的動機(jī)之一,所以利用知識圖譜來增強(qiáng)這個(gè)任務(wù),看上去相當(dāng)?shù)暮线m。

但是知識圖譜增強(qiáng)又存在兩個(gè)挑戰(zhàn):

  • 大規(guī)模知識圖譜難以完全利用起來,例如 DBPedia 有2200萬節(jié)點(diǎn),1.7億條邊,計(jì)算其中所有實(shí)體的表示顯然也是不現(xiàn)實(shí)的

  • 知識圖譜實(shí)體消歧錯(cuò)誤傳遞,這點(diǎn)在前文也有提到。

  • 針對這兩點(diǎn)挑戰(zhàn),本文都給出了相應(yīng)的解決方案。

    ▲系統(tǒng)總體結(jié)構(gòu)

    圖譜表示

    本文使用了兩種方式計(jì)算圖譜表示,分別為子圖表示連通分量表示。其中,連通分量表示則是將整個(gè)知識圖譜中劃分為若干個(gè)連通分量,每個(gè)連通分量看作是一個(gè)節(jié)點(diǎn),從而將大規(guī)模圖縮放成一個(gè)相對較小的圖,例如本文將 DBpedia 的2200萬個(gè)節(jié)點(diǎn)劃分為606個(gè)聯(lián)通分量來計(jì)算表示。計(jì)算方法使用的都是 GraphSAGE,簡單來講就是用某一個(gè)節(jié)點(diǎn)隨機(jī)游走的N跳鄰居層層聚合,得到當(dāng)前節(jié)點(diǎn)的表示。

    連通分量表示的方式則使用一種比較樸素的方式解決了大規(guī)模圖譜表示的問題,實(shí)則使用的還是子圖表示的計(jì)算方法。其好處則在于某一個(gè)節(jié)點(diǎn)可以得到的“言外之意”變得更多,更加看上去有關(guān)的信息被利用了。

    其中,圖表示的訓(xùn)練方式也分為靜態(tài)訓(xùn)練和端到端訓(xùn)練兩種,靜態(tài)圖表示是先訓(xùn)練好圖表示,再疊加到任務(wù)中,端到端訓(xùn)練則是在任務(wù)訓(xùn)練的同時(shí)也訓(xùn)練圖表示。

    去掉歧義噪音

    針對歧義噪音問題,作者則是使用 BERT 所學(xué)習(xí)到的統(tǒng)計(jì)共現(xiàn)知識去解決。首先我們可以認(rèn)為,BERT 所學(xué)到的文本表示,聚合了很多的信息,而對于一個(gè) aspect ,它的表示則聚合了其描述信息、分布信息等,那么,圖譜嵌入空間上相近的實(shí)體,則在 BERT 學(xué)到的表示空間里面也應(yīng)該有較高的相似性,但BERT聚合到的信息又太多了,所以需要將所需要的信息相辦法抽取出來。所以,定義兩個(gè)實(shí)體和的相似函數(shù)為:

    其中B是可訓(xùn)練的參數(shù),和分別是實(shí)體和實(shí)體的BERT表示的[CLS]向量。然后分別采樣在圖譜表示空間里距離近的實(shí)體和距離遠(yuǎn)的實(shí)體作為正例和負(fù)例,訓(xùn)練參數(shù)B,loss為:

    其中,和是相近實(shí)體,和則是不相近的實(shí)體,該目標(biāo)是盡可能讓BERT學(xué)到的表示和乘上參數(shù)矩陣B之后,與圖嵌入空間里面的距離更加相關(guān)。

    而最終使用的實(shí)體的表示則為:

    也就是說,如果實(shí)體的BERT表示的相似度和圖譜嵌入空間內(nèi)的相似度出現(xiàn)了矛盾,則屏蔽掉它的圖譜表示,作者認(rèn)為這樣可以屏蔽掉很多消歧算法帶來的噪音。

    實(shí)驗(yàn)結(jié)果

    ▲實(shí)驗(yàn)結(jié)果

    上表中,GS后綴是使用了靜態(tài)訓(xùn)練得到的表示增強(qiáng)的方法,GS-E后綴則是在原有基礎(chǔ)上使用了端到端訓(xùn)練得到的表示增強(qiáng)的方法,[probe]后綴則是在原有方法基礎(chǔ)上使用了去掉歧義噪音策略的方法。我們可以看到,在3個(gè)數(shù)據(jù)集上,文本所提出的方法都各有不算小的提升,而尤其去掉歧義噪音之后,分別都得到了SOTA的結(jié)果,可見作者的方法還是有一定增益的。

    順便一提,這個(gè)結(jié)果里面作者玩兒了個(gè)文字游戲,比如SDGCN-BERT-GS-E[probe]的結(jié)果提升了2.79%,這個(gè)結(jié)果是這么是計(jì)算出來的:(83.62-81.35)/81.35*100%=2.79%,同理其他的提升也是這么算出來的,并不是絕對分?jǐn)?shù)的提升,而因?yàn)榉帜覆皇?00,所以提升數(shù)值都需要相對減少一些。

    小結(jié)

    我認(rèn)為,本文還欠缺了一個(gè)分析實(shí)驗(yàn),即連通分量表示是否是有用的。直觀上來看,將2200萬個(gè)節(jié)點(diǎn)硬性劃分成606個(gè)連通分量,去計(jì)算整個(gè)圖的表示,總是感覺過于樸素和粗暴了。畢竟作者沒有講他是以什么樣的標(biāo)準(zhǔn)去劃分,我們也沒有辦法去評析這種劃分方式是否合理,同時(shí)我們也沒法知道,連通分量表示在這篇工作中到底起到了什么樣的作用,是否僅僅需要子圖表示加上去除歧義噪音的策略,就足以得到這么好的效果了呢?甚至極端情況下,如果數(shù)據(jù)集里面的 bias 比較大,按照這種劃分方式,是否會將絕大多數(shù) aspect 都分配到同一個(gè)連通分量里面,從而導(dǎo)致這個(gè)特征變成了一個(gè)廢特征呢

    并且,感覺上連通分量表示則是為了大規(guī)模圖譜而大規(guī)模圖譜。不可否認(rèn),這篇文章使用圖譜增強(qiáng)任務(wù),得到了一定的提升,但是這種提升,我認(rèn)為更多還是在于利用有限、固定的圖譜的信息,加上噪音消除策略而達(dá)成的,真正到了廣域數(shù)據(jù),需要大規(guī)模圖譜的場景下,所要面對的問題絕不僅僅是計(jì)算瓶頸那么簡單。

    例如,在開頭我就提到的絕大多數(shù)實(shí)體過于稀疏的問題,與之相伴的還有收錄的問題。世界上不可能存在一個(gè)圖譜,能夠收錄盡世界上所有的事實(shí)知識,莫說圖譜,牛津英文詞典的收錄情況就已經(jīng)回答了這個(gè)問題。哪怕相關(guān)研究者們不斷地更新、迭代圖譜自動收錄算法,和圖譜自動補(bǔ)全算法,但是也難以趕上新知識的產(chǎn)生速度,同時(shí)圖譜要保證事實(shí)準(zhǔn)確、高質(zhì)量,那么其準(zhǔn)入門檻也不可能允許超高速的收錄。就說相對還比較固定的專業(yè)領(lǐng)域知識,也面臨著語言不全等問題,例如生物名錄數(shù)據(jù)庫,英文數(shù)據(jù)庫中也存在很多中文數(shù)據(jù)庫里面沒有的條目。所以,我們沒法指望知識圖譜能夠枚舉世界上所有的事實(shí)。

    收錄問題也不是最關(guān)鍵的因素,畢竟,沒有收錄的知識,我們可以在任務(wù)里面不去使用它,那無非它的效果退化到原始模型的效果而已。信息稀疏所引發(fā)的消歧問題,也可以通過置信度閾值去控制它,保證實(shí)體鏈指的準(zhǔn)確率,避免錯(cuò)誤傳遞。但是拋開這兩個(gè)問題,最關(guān)鍵的還是統(tǒng)計(jì)模型與知識圖譜的特性

    如果使用統(tǒng)計(jì)模型去將知識圖譜嵌入到連續(xù)空間中,則必然要面對統(tǒng)計(jì)模型的泛化能力,但是,事實(shí)知識是不可泛化的(例如當(dāng)我們詢問GPT-3/ERNIE3.0,太陽有幾只眼睛/我的腳有幾只眼睛的時(shí)候,這個(gè)問題事實(shí)上是不成立的,但是統(tǒng)計(jì)模型總是會泛化出一個(gè)結(jié)果)。到了大規(guī)模稠密知識圖譜上,這個(gè)問題則會更加嚴(yán)重,例如圖嵌入多是使用隨機(jī)游走采樣計(jì)算節(jié)點(diǎn)相似性,但是知識圖譜上絕大部分的多跳路徑是不成立的,其邊是不可傳遞的。例如:劉德華的搭檔是劉偉強(qiáng),劉德華的老婆是朱麗倩,那么劉偉強(qiáng)和朱麗倩之間有什么關(guān)系呢?如果采樣過程不受控制,這三者在統(tǒng)計(jì)空間里面可能會非常接近,哪怕受了控制,保不齊通過其他采樣的泛化,還是會掛上關(guān)系。

    而在統(tǒng)計(jì)模型里面,想要定死了這些規(guī)則,恐怕要通過無數(shù)的樣本去拉近、推遠(yuǎn)一些表示,才有可能完成在搜索空間里面構(gòu)建出來一套完整的規(guī)則,相比于直接用符號推理來講,我認(rèn)為得不償失。

    實(shí)際上哪怕知識圖譜補(bǔ)全任務(wù)里面,也有很多數(shù)據(jù)是不可推理數(shù)據(jù),那些數(shù)據(jù)很有可能就是用統(tǒng)計(jì)特征算出來,扔到數(shù)據(jù)集里面的,例如一個(gè)人是美國人,那他的信仰是天主教之類的,當(dāng)年我做圖譜表示的同事分析結(jié)論,一些分?jǐn)?shù)很難刷,“很難”的數(shù)據(jù)集里面,這類數(shù)據(jù)似乎也占據(jù)了相當(dāng)大的比重。

    但是,在benchmark上,圖譜增強(qiáng)又往往能帶來一些看上去不錯(cuò)的增益,我認(rèn)為,其主要在于這類任務(wù)面對的都是有限、固定的子集,例如本文中,使用到的子圖規(guī)模100到1000不等,這種規(guī)模之下,則絕大多數(shù)情況下可以規(guī)避掉我上面提到的兩個(gè)問題。也就是說,在固定垂直領(lǐng)域下,信息密度大,沒有消歧壓力、不可控泛化的壓力,圖譜增強(qiáng)是有用的,但是一旦到了開放領(lǐng)域,則不得不面對上面的問題

    萌屋作者:Severus

    Severus,在某廠工作的老程序員,主要從事自然語言理解方向,資深死宅,日常憤青,對個(gè)人覺得難以理解的同行工作都采取直接吐槽的態(tài)度。筆名取自哈利波特系列的斯內(nèi)普教授,覺得自己也像他那么自閉、刻薄、陰陽怪氣,也向往他為愛而偉大。

    作品推薦

  • 深度學(xué)習(xí),路在何方?

  • 數(shù)據(jù)還是模型?人類知識在深度學(xué)習(xí)里還有用武之地嗎?

  • 在錯(cuò)誤的數(shù)據(jù)上,刷到 SOTA 又有什么意義?

  • 后臺回復(fù)關(guān)鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺回復(fù)關(guān)鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    總結(jié)

    以上是生活随笔為你收集整理的打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 日本不卡高清视频 | 国产精品乱码 | 97视频网址 | 熟妇熟女乱妇乱女网站 | 国产色视频一区二区三区qq号 | 影音先锋制服 | 亚洲区偷拍 | www,色 | 91丨porny| 亚洲天堂2020 | 久久婷五月天 | 性爱一级视频 | 久久久国产成人一区二区三区 | 一级黄色在线观看 | 色福利视频 | 91猎奇在线观看 | 香蕉传媒| 伊人91| 糖心av| 亚洲春色www | 成人作爱视频 | 免费毛片一区二区三区久久久 | 两性免费视频 | 久久精品99久久久久久 | 女女爱爱视频 | 亚洲五月天综合 | 日韩视频精品在线 | 国产日韩欧美 | 久久久久亚洲av成人人电影 | 国产又粗又猛视频免费 | 麻豆传谋在线观看免费mv | 欧美 变态 另类 人妖 | 非洲黑人狂躁日本妞 | 日韩av在线网 | 毛片av在线观看 | 奇米99 | 国产高清视频在线观看 | 亚洲国产天堂av | 91精品观看| 精品国产乱码久久久久久浪潮 | 国产精品毛片一区二区在线看舒淇 | www.精品久久 | 99久久久久成人国产免费 | 色碰视频 | 97久久人人超碰caoprom欧美 | 国产小视频91 | 精品无码人妻一区二区三 | 国产123在线 | 日本大片黄 | 黄色片在线免费 | 亚洲精品久久久久久无码色欲四季 | 黑人大群体交免费视频 | 欧美激情成人网 | 丁香花电影免费播放电影 | 亚洲av成人精品日韩在线播放 | 欧美色视频在线观看 | 日韩免费不卡视频 | 美女被男人插 | 99国产精品无码 | 18成人免费观看网站 | 国产成人无码精品久久二区三 | 天堂av成人| av先锋资源 | 国产精品久久毛片 | 日产欧产va高清 | 美女黄色一级 | 国产精品扒开腿做爽爽 | 亚洲av无码精品色午夜 | 四虎毛片| 成人性生生活性生交全黄 | 欧洲视频一区 | 小香蕉影院 | 奇米精品一区二区三区在线观看 | 99国产在线观看 | 欧美午夜在线视频 | 男女靠逼视频 | 色综合天天综合网天天狠天天 | 黄网站色视频 | 亚洲国产精品999 | 国产成人一区二区三区小说 | 99精品福利 | 国产a线| 日本特黄网站 | 亚洲在线综合 | 大陆农村乡下av | 国产精品xxx | 少妇一级淫片免费放中国 | 久久久噜噜噜久久中文字幕色伊伊 | 日批小视频 | 91视频日本 | 在线精品视频一区 | 黄色国产在线播放 | 蜜臀久久99精品久久久久宅男 | 一级黄色大毛片 | 北条麻妃久久精品 | 黄网站在线观 | 国产免费一级视频 | 日韩a在线 | 国产综合在线播放 |