领域应用 | 常识性概念图谱建设以及在美团场景中的应用
轉(zhuǎn)載公眾號 | 美團(tuán)技術(shù)團(tuán)隊
常識性概念圖譜,是圍繞常識性概念建立的實體以及實體之間的關(guān)系,同時側(cè)重美團(tuán)的場景構(gòu)建的一類知識圖譜。本文介紹了美團(tuán)常識性概念圖譜構(gòu)建的Schema,圖譜建設(shè)中遇到的挑戰(zhàn)以及建設(shè)過程中的算法實踐,最后介紹了一些目前常識性概念圖譜在業(yè)務(wù)上的應(yīng)用。
一、引言
二、常識性概念圖譜介紹
2.1 圖譜三類節(jié)點(diǎn)
2.2 圖譜四類關(guān)系
三、常識性概念圖譜構(gòu)建
3.1 概念挖掘
3.2 概念上下位關(guān)系挖掘
3.3 概念屬性關(guān)系挖掘
3.4 概念承接關(guān)系挖掘
3.5 POI/SPU-概念關(guān)系建設(shè)
四、應(yīng)用實踐
4.1 到綜品類詞圖譜建設(shè)
4.2 點(diǎn)評搜索引導(dǎo)
4.3 到綜醫(yī)美內(nèi)容打標(biāo)
五、總結(jié)與展望
一、引言
在自然語言處理中,我們經(jīng)常思考,怎么樣才能做好自然語言的理解工作。對我們?nèi)祟悂碚f,理解某一個自然語言的文本信息,通常都是通過當(dāng)前的信息,關(guān)聯(lián)自己大腦中存儲的關(guān)聯(lián)信息,最終理解信息。例如“他不喜歡吃蘋果,但是喜歡吃冰淇淋”,人在理解的時候關(guān)聯(lián)出大腦中的認(rèn)知信息:蘋果,甜的,口感有點(diǎn)脆;冰淇淋,比蘋果甜,口感軟糯、冰涼,夏天能解暑;小孩更喜歡吃甜食和冰淇淋。所以結(jié)合這樣的知識,會推理出更喜歡冰淇淋的若干原因。但是現(xiàn)在很多自然語言理解的工作還是聚焦在信息的層面,現(xiàn)在的理解工作類似于一個貝葉斯概率,從已知的訓(xùn)練文本中尋找符合條件的最大化文本信息。
在自然語言處理中做到像人一樣去理解文本是自然語言處理的終極目標(biāo),所以現(xiàn)在越來越多的研究上,引入了一些額外的知識,幫助機(jī)器做好自然語言文本的理解工作。單純的文本信息只是外部客觀事實的表述,知識則是在文本信息基礎(chǔ)之上對外部客觀事實的歸納和總結(jié),所以在自然語言處理中加入輔助的知識信息,讓自然語言理解的更好。
建立知識體系則是一種直接的方式,能夠幫助自然語言理解得更準(zhǔn)確。知識圖譜就是圍繞這個思想提出,期望通過給機(jī)器顯性的知識,讓機(jī)器能夠像人一樣進(jìn)行推理理解。所以在2012年Google 正式提出了知識圖譜(Knowledge Graph)的概念,它的初衷是為了優(yōu)化搜索引擎返回的結(jié)果,增強(qiáng)用戶的搜索質(zhì)量及體驗。
圖1 信息和知識二、常識性概念圖譜介紹
常識性概念圖譜就是建立概念與概念之間的關(guān)系,幫助自然語言文本的理解。同時我們的常識性概念圖譜側(cè)重美團(tuán)的場景,幫助提升美團(tuán)場景中的搜索、推薦、Feeds流等的效果。
按照理解的需求,主要是三個維度的理解能力:
是什么,概念是什么,建立核心概念是什么的關(guān)聯(lián)體系。例如“維修洗衣機(jī)”,“維修”是什么,“洗衣機(jī)”是什么。
什么樣,核心概念某一方面的屬性,對核心概念某一方面的細(xì)化?!皫杜_的餐廳”、“親子游樂園”、“水果千層蛋糕”中“帶露臺”、“親子”、“水果千層”這些都是核心概念某一個方面的屬性,所以需要建立核心概念對應(yīng)屬性以及屬性值之間的關(guān)聯(lián)。
給什么,解決搜索概念和承接概念之間的Gap,例如“閱讀”、“逛街”、“遛娃”等沒有明確對應(yīng)的供給概念,所以建立搜索和供給概念之間的關(guān)聯(lián)網(wǎng)絡(luò),解決這一類問題。
總結(jié)下來,涵蓋“是什么”的概念Taxonomy體系結(jié)構(gòu),“什么樣”的概念屬性關(guān)系,“給什么”的概念承接關(guān)系。同時POI(Point of Interesting)、SPU(Standard Product Unit)、團(tuán)單作為美團(tuán)場景中的實例,需要和圖譜中的概念建立連接。
圖2 常識性概念圖譜關(guān)系從建設(shè)目標(biāo)出發(fā),拆解整體常識性概念圖譜建設(shè)工作,拆分為三類節(jié)點(diǎn)和四類關(guān)系,具體內(nèi)容如下。
2.1 圖譜三類節(jié)點(diǎn)
Taxonomy節(jié)點(diǎn):在概念圖譜中,理解一個概念需要合理的知識體系,預(yù)定義好的Taxonomy知識體系作為理解的基礎(chǔ),在預(yù)定義的體系中分為兩類節(jié)點(diǎn):第一類在美團(tuán)場景中可以作為核心品類出現(xiàn)的。例如,食材、項目、場所;另一類是作為對核心品類限定方式出現(xiàn)的,例如,顏色、方式、風(fēng)格。這兩類的節(jié)點(diǎn)的定義都能幫助搜索、推薦等的理解。目前預(yù)定義的Taxonomy節(jié)點(diǎn)如下圖所示:
圖3 圖譜Taxonomy預(yù)定義體系原子概念節(jié)點(diǎn):組成圖譜最小語義單元節(jié)點(diǎn),有獨(dú)立語義的最小粒度詞語,例如網(wǎng)紅、狗咖、臉部、補(bǔ)水等。定義的原子概念,全部需要掛靠到定義的Taxonomy節(jié)點(diǎn)之上。
復(fù)合概念節(jié)點(diǎn):由原子概念以及對應(yīng)屬性組合而成的概念節(jié)點(diǎn),例如臉部補(bǔ)水、面部補(bǔ)水等。復(fù)合概念需要和其對應(yīng)的核心詞概念建立上下位關(guān)系。
2.2 圖譜四類關(guān)系
同義/上下位關(guān)系:語義上的同義/上下位關(guān)系,例如臉部補(bǔ)水-syn-面部補(bǔ)水等。定義的Taxonomy體系也是一種上下位的關(guān)系,所以歸并到同義/上下位關(guān)系里。
圖4 上下位、同義關(guān)系示例概念屬性關(guān)系:是典型的CPV(Concept-Property-Value)關(guān)系,從各個屬性維度來描述和定義概念,例如火鍋-口味-不辣,火鍋-規(guī)格-單人等,示例如下:
圖5 概念屬性關(guān)系示例概念屬性關(guān)系包含兩類。
預(yù)定義概念屬性:目前我們預(yù)定義典型的概念屬性如下圖所示:
圖6 預(yù)定義屬性開放型概念屬性:除了我們自己定義的公共的概念屬性外,我們還從文本中挖掘一些特定的屬性詞,補(bǔ)充一些特定的屬性詞。例如,姿勢、主題、舒適度、口碑等。
概念承接關(guān)系:這類關(guān)系主要建立用戶搜索概念和美團(tuán)承接概念之間的鏈接,例如踏春-場所-植物園,減壓-項目-拳擊等。
概念承接關(guān)系以「事件」為核心,定義了「場所」、「物品」、「人群」、「時間」、「功效」等能夠滿足用戶需求的一類供給概念。以事件“美白”為例,“美白”作為用戶的需求,可以有不同的供給概念能夠滿足,例如美容院、水光針等。目前,定義的幾類承接關(guān)系如下圖所示:
圖7 概念承接關(guān)系類型POI/SPU-概念關(guān)系:POI作為美團(tuán)場景中的實例,實例-概念的關(guān)系作為知識圖譜中最后的一站,常常是比較能發(fā)揮知識圖譜在業(yè)務(wù)上價值的地方。在搜索、推薦等業(yè)務(wù)場景,最終的目的是能夠展示出符合用戶需求的POI,所以建立POI/SPU-概念的關(guān)系是整個美團(tuán)場景常識性概念圖譜重要的一環(huán),也是比較有價值的數(shù)據(jù)。
三、常識性概念圖譜構(gòu)建
圖譜構(gòu)建整體框架如下圖所示:
圖8 概念圖譜建設(shè)整體工作3.1 概念挖掘
常識性概念圖譜的各種關(guān)系都是圍繞概念構(gòu)建,這些概念的挖掘是常識性概念圖譜建設(shè)的第一環(huán)。按照原子概念和復(fù)合概念兩種類型,分別采取相應(yīng)的方法進(jìn)行挖掘。
3.1.1 原子概念挖掘
原子概念候選來自于Query、UGC(User Generated Content)、團(tuán)單等文本分詞后的最小片段,原子概念的判斷標(biāo)準(zhǔn)是需要滿足流行性、有意義、完整性三個特性的要求。
流行性,一個概念應(yīng)是某個或某些語料內(nèi)流行度較高的詞,該特性主要通過頻率類特征度量,如“桌本殺”這個詞搜索量很低且UGC語料中頻率也很低,不滿足流行性要求。
有意義,一個概念應(yīng)是一個有意義的詞,該特性主要通過語義特征度量,如“阿貓”、“阿狗”通常只表一個單純的名稱而無其他實際含義。
完整性,一個概念應(yīng)是一個完整的詞,該特性主要通過獨(dú)立檢索占比(該詞作為Query的搜索量/包含該詞的Query的總搜索量)衡量,如“兒童設(shè)”是一個錯誤的分詞候選,在UGC中頻率較高,但獨(dú)立檢索占比低。
基于原子概念以上的特性,結(jié)合人工標(biāo)注以及規(guī)則自動構(gòu)造的訓(xùn)練數(shù)據(jù)訓(xùn)練XGBoost分類模型對原子概念是否合理進(jìn)行判斷。
3.1.2 復(fù)合概念挖掘
復(fù)合概念候選來自于原子概念的組合,由于涉及組合,復(fù)合概念的判斷比原子概念判斷更為復(fù)雜。復(fù)合概念要求在保證完整語義的同時,在美團(tuán)站內(nèi)也要有一定的認(rèn)知。根據(jù)問題的類型,采用Wide&Deep的模型結(jié)構(gòu),Deep側(cè)負(fù)責(zé)語義的判斷,Wide側(cè)引入站內(nèi)的信息。
圖9 復(fù)合概念挖掘的Wide&Deep模型該模型結(jié)構(gòu)有以下兩個特點(diǎn),對復(fù)合概念的合理性進(jìn)行更準(zhǔn)確的判斷:
Wide&Deep模型結(jié)構(gòu):將離散特征與深度模型結(jié)合起來判斷復(fù)合概念是否合理。
Graph Embedding特征:引入詞組搭配間的關(guān)聯(lián)信息,如“食品”可以與“人群”、“烹飪方式”、“品質(zhì)”等進(jìn)行搭配。
3.2 概念上下位關(guān)系挖掘
在獲取概念之后,還需要理解一個概念“是什么”,一方面通過人工定義的Taxonomy知識體系中的上下位關(guān)系進(jìn)行理解,另一方面通過概念間的上下位關(guān)系進(jìn)行理解。
3.2.1 概念-Taxonomy間上下位關(guān)系
概念-Taxonomy間上下位關(guān)系是通過人工定義的知識體系理解一個概念是什么,由于Taxonomy類型是人工定義好的類型,可以把這個問題轉(zhuǎn)化成一個分類問題。同時,一個概念在Taxonomy體系中可能會有多個類型,如“青檸魚”既是一種“動物”,也屬于“食材”的范疇,所以這里最終把這個問題作為一個Entity Typing的任務(wù)來處理,將概念及其對應(yīng)上下文作為模型輸入,并將不同Taxonomy類別放在同一空間中進(jìn)行判斷,具體的模型結(jié)構(gòu)如下圖所示:
圖10 BERT Taxonomy關(guān)系模型3.2.2 概念-概念間上下位關(guān)系
知識體系通過人工定義的類型來理解一個概念是什么,但人工定義的類型始終是有限的,如果上位詞不在人工定義的類型中,這樣的上下位關(guān)系則沒辦法理解。如可以通過概念-Taxonomy關(guān)系理解“西洋樂器”、“樂器”、“二胡”都是一種“物品”,但沒辦法獲取到“西洋樂器”和“樂器”、“二胡”和“樂器”之間的上下位關(guān)系。基于以上的問題,對于概念-概念間存在的上下位關(guān)系,目前采取如下兩種方法進(jìn)行挖掘:
基于詞法規(guī)則的方法:主要解決原子概念和復(fù)合概念間的上下位關(guān)系,利用候選關(guān)系對在詞法上的包含關(guān)系(如西洋樂器-樂器)挖掘上下位關(guān)系。
基于上下文判斷的方法:詞法規(guī)則可以解決在詞法上存在包含關(guān)系的上下位關(guān)系對的判斷。對于不存在詞法上的包含關(guān)系的上下位關(guān)系對,如“二胡-樂器”,首先需要進(jìn)行上下位關(guān)系發(fā)現(xiàn),抽取出“二胡-樂器”這樣的關(guān)系候選,再進(jìn)行上下位關(guān)系判斷,判斷“二胡-樂器”是一個合理的上下位關(guān)系對??紤]到人在解釋一個對象時會對這個對象的類型進(jìn)行相關(guān)介紹,如在對“二胡”這個概念進(jìn)行解釋時會提到“二胡是一種傳統(tǒng)樂器”,從這樣的解釋性文本中,既可以將“二胡-樂器”這樣的關(guān)系候選對抽取出來,也能同時實現(xiàn)這個關(guān)系候選對是否合理的判斷。這里在上下位關(guān)系挖掘上分為候選關(guān)系描述抽取以及上下位關(guān)系分類兩部分:
候選關(guān)系描述抽取:兩個概念從屬于相同的Taxonomy類型是一個候選概念對是上下位關(guān)系對的必要條件,如“二胡”和“樂器”都屬于Taxonomy體系中定義的“物品”,根據(jù)概念-Taxonomy上下位關(guān)系的結(jié)果,對于待挖掘上下位關(guān)系的概念,找到跟它Taxonomy類型一致的候選概念組成候選關(guān)系對,然后在文本中根據(jù)候選關(guān)系對的共現(xiàn)篩選出用作上下位關(guān)系分類的候選關(guān)系描述句。
上下位關(guān)系分類:在獲取到候選關(guān)系描述句后,需要結(jié)合上下文對上下位關(guān)系是否合理進(jìn)行判斷,這里將兩個概念在文中的起始位置和終止位置用特殊標(biāo)記標(biāo)記出來,并以兩個概念在文中起始位置標(biāo)記處的向量拼接起來作為兩者關(guān)系的表示,根據(jù)這個表示對上下位關(guān)系進(jìn)行分類,向量表示使用BERT輸出的結(jié)果,詳細(xì)的模型結(jié)構(gòu)如下圖所示:
在訓(xùn)練數(shù)據(jù)構(gòu)造上,由于上下位關(guān)系表述的句子非常稀疏,大量共現(xiàn)的句子并沒有明確的表示出候選關(guān)系對是否具有上下位關(guān)系,利用已有上下位關(guān)系采取遠(yuǎn)程監(jiān)督方式進(jìn)行訓(xùn)練數(shù)據(jù)構(gòu)建不可行,所以直接使用人工標(biāo)注的訓(xùn)練集對模型進(jìn)行訓(xùn)練。由于人工標(biāo)注的數(shù)量比較有限,量級在千級別,這里結(jié)合Google的半監(jiān)督學(xué)習(xí)算法UDA(Unsupervised Data Augmentation)對模型效果進(jìn)行提升,最終Precision可以達(dá)到90%+,詳細(xì)指標(biāo)見表1:
表1 使用UDA在不同訓(xùn)練數(shù)據(jù)量下的提升效果3.3 概念屬性關(guān)系挖掘
概念含有的屬性可以按照屬性是否通用劃分為公共屬性和開放屬性。公共屬性是由人工定義的、大多數(shù)概念都含有的屬性,例如價位、風(fēng)格、品質(zhì)等。開放屬性指某些特定的概念才含有的屬性,例如,“植發(fā)”、“美睫”和“劇本殺”分別含有開放屬性“密度”、“翹度”和“邏輯”。開放屬性的數(shù)量遠(yuǎn)遠(yuǎn)多于公共屬性。針對這兩種屬性關(guān)系,我們分別采用以下兩種方式進(jìn)行挖掘。
3.3.1 基于復(fù)合概念挖掘公共屬性關(guān)系
由于公共屬性的通用性,公共屬性關(guān)系(CPV)中的Value通常和Concept以復(fù)合概念的形式組合出現(xiàn),例如,平價商場、日式料理、紅色電影高清。我們將關(guān)系挖掘任務(wù)轉(zhuǎn)化為依存分析和細(xì)粒度NER任務(wù)(可參考《美團(tuán)搜索中NER技術(shù)的探索與實踐》一文),依存分析識別出復(fù)合概念中的核心實體和修飾成分,細(xì)粒度NER判斷出具體屬性值。例如,給定復(fù)合概念「紅色電影高清」,依存分析識別出「電影」這個核心概念,「紅色」、「高清」是「電影」的屬性,細(xì)粒度NER預(yù)測出屬性值分別為「風(fēng)格(Style)」、「品質(zhì)評價(高清)」。
依存分析和細(xì)粒度NER有可以互相利用的信息,例如“畢業(yè)公仔”,「時間(Time)」和「產(chǎn)品(Product))」的實體類型,與「公仔」是核心詞的依存信息,可以相互促進(jìn)訓(xùn)練,因此將兩個任務(wù)聯(lián)合學(xué)習(xí)。但是由于兩個任務(wù)之間的關(guān)聯(lián)程度并不明確,存在較大噪聲,使用Meta-LSTM,將Feature-Level的聯(lián)合學(xué)習(xí)優(yōu)化為Function-Level的聯(lián)合學(xué)習(xí),將硬共享變?yōu)閯討B(tài)共享,降低兩個任務(wù)之間噪聲影響。
模型的整體架構(gòu)如下圖所示:
圖12 依存分析-細(xì)粒度NER聯(lián)合學(xué)習(xí)模型目前,概念修飾關(guān)系整體準(zhǔn)確率在85%左右。
3.3.2 基于開放屬性詞挖掘特定屬性關(guān)系
開放屬性詞和屬性值的挖掘
開放屬性關(guān)系需要挖掘不同概念特有的屬性和屬性值,它的難點(diǎn)在于開放屬性和開放屬性值的識別。通過觀察數(shù)據(jù)發(fā)現(xiàn),一些通用的屬性值(例如:好、壞、高、低、多、少),通常和屬性搭配出現(xiàn)(例如:環(huán)境好、溫度高、人流量大)。所以我們采取一種基于模板的Bootstrapping方法自動從用戶評論中挖掘?qū)傩院蛯傩灾?#xff0c;挖掘流程如下:
圖13 開放屬性挖掘流程在挖掘了開放屬性詞和屬性值之后,開放屬性關(guān)系的挖掘拆分為「概念-屬性」二元組的挖掘和「概念-屬性-屬性值」三元組的挖掘。
概念-屬性的挖掘
「概念-屬性」二元組的挖掘,即判斷概念Concept是否含有屬性Property。挖掘步驟如下:
根據(jù)概念和屬性在UGC中的共現(xiàn)特征,利用TFIDF變種算法挖掘概念對應(yīng)的典型屬性作為候選。
將候選概念屬性構(gòu)造為簡單的自然表述句,利用通順度語言模型判斷句子的通順度,保留通順度高的概念屬性。
概念-屬性-屬性值的挖掘
在得到「概念-屬性」二元組后,挖掘?qū)?yīng)屬性值的步驟如下:
種子挖掘?;诠铂F(xiàn)特征和語言模型從UGC中挖掘種子三元組。
模板挖掘。利用種子三元組從UGC中構(gòu)建合適的模板(例如,“水溫是否合適,是選擇游泳館的重要標(biāo)準(zhǔn)?!?#xff09;。
關(guān)系生成。利用種子三元組填充模板,訓(xùn)練掩碼語言模型用于關(guān)系生成。
目前,開放領(lǐng)域的概念屬性關(guān)系準(zhǔn)確率在80%左右。
3.4 概念承接關(guān)系挖掘
概念承接關(guān)系是建立用戶搜索概念和美團(tuán)承接概念之間的關(guān)聯(lián)。例如,當(dāng)用戶搜索“踏青”時,真正的意圖是希望尋找“適合踏青的地方”,因此平臺通過“郊野公園”、“植物園”等概念進(jìn)行承接。關(guān)系的挖掘需要從0到1進(jìn)行,所以整個概念承接關(guān)系挖掘根據(jù)不同階段的挖掘重點(diǎn)設(shè)計了不同的挖掘算法,可以分為三個階段:①初期的種子挖掘;②中期的深度判別模型挖掘;③后期的關(guān)系補(bǔ)全。詳細(xì)介紹如下。
3.4.1 基于共現(xiàn)特征挖掘種子數(shù)據(jù)
為了解決關(guān)系抽取任務(wù)中的冷啟動問題,業(yè)界通常采用Bootstrapping的方法,通過人工設(shè)定的少量種子和模板,自動從語料中擴(kuò)充數(shù)據(jù)。然而,Bootstrapping方法不僅受限于模板的質(zhì)量,而且應(yīng)用于美團(tuán)的場景中有著天然缺陷。美團(tuán)語料的主要來源是用戶評論,而用戶評論的表述十分口語化及多樣化,很難設(shè)計通用而且有效的模板。因此,我們拋棄基于模板的方法,而是根據(jù)實體間的共現(xiàn)特征以及類目特征,構(gòu)建了一個三元對比學(xué)習(xí)網(wǎng)絡(luò),自動從非結(jié)構(gòu)化的文本中挖掘?qū)嶓w關(guān)系之間潛在的相關(guān)性信息。
具體來說,我們觀察到不同商戶類目下用戶評論中實體的分布差異較大。例如,美食類目下的UGC經(jīng)常涉及到“聚餐”、“點(diǎn)菜”、“餐廳”;健身類目下的UGC經(jīng)常涉及到“減肥”、“私教”、“健身房”;而“裝修”、“大廳”等通用實體在各個類目下都會出現(xiàn)。因此,我們構(gòu)建了三元對比學(xué)習(xí)網(wǎng)絡(luò),使得同類目下的用戶評論表示靠近,不同類目的用戶評論表示遠(yuǎn)離。與Word2Vec等預(yù)訓(xùn)練詞向量系統(tǒng)類似,通過該對比學(xué)習(xí)策略得到的詞向量層天然蘊(yùn)含豐富的關(guān)系信息。在預(yù)測時,對于任意的用戶搜索概念,可以通過計算其與所有承接概念之間的語義相似度,輔以搜索業(yè)務(wù)上的統(tǒng)計特征,得到一批高質(zhì)量的種子數(shù)據(jù)。
圖15 概念承接關(guān)系挖掘的Triplet Network3.4.2 基于種子數(shù)據(jù)訓(xùn)練深度模型
預(yù)訓(xùn)練語言模型近兩年來在NLP領(lǐng)域取得了很大的進(jìn)展,基于大型的預(yù)訓(xùn)練模型微調(diào)下游任務(wù),是NLP領(lǐng)域非常流行的做法。因此,在關(guān)系挖掘中期,我們采用基于BERT(參考《美團(tuán)BERT的探索和實踐》一文)的關(guān)系判別模型,利用BERT預(yù)訓(xùn)練時學(xué)到的大量語言本身的知識來幫助關(guān)系抽取任務(wù)。
模型結(jié)構(gòu)如下圖所示。首先,根據(jù)實體間的共現(xiàn)特征得到候選實體對,召回包含候選實體對的用戶評論;然后,沿用MTB論文中的實體標(biāo)記方法,在兩個實體的開始位置和結(jié)束位置分別插入特殊的標(biāo)志符號,經(jīng)過BERT建模之后,將兩個實體開始位置的特殊符號拼接起來作為關(guān)系表示;最后,將關(guān)系表示輸入Softmax層判斷實體間是否含有關(guān)系。
圖16 概念承接關(guān)系判別模型3.4.3 基于已有的圖譜結(jié)構(gòu)進(jìn)行關(guān)系補(bǔ)全
通過上述兩個階段,已經(jīng)從非結(jié)構(gòu)化的文本信息中構(gòu)建出了一個初具規(guī)模的概念承接關(guān)系的圖譜。但是由于語義模型的局限性,當(dāng)前圖譜中存在大量的三元組缺失。為了進(jìn)一步豐富概念圖譜,補(bǔ)全缺失的關(guān)系信息,我們應(yīng)用知識圖譜鏈接預(yù)測中的TransE算法以及圖神經(jīng)網(wǎng)絡(luò)等技術(shù),對已有的概念圖譜進(jìn)行補(bǔ)全。
為了充分利用已知圖譜的結(jié)構(gòu)信息,我們采用基于關(guān)系的圖注意力神經(jīng)網(wǎng)絡(luò)(RGAT,Relational Graph Attention Network)來建模圖結(jié)構(gòu)信息。RGAT利用關(guān)系注意力機(jī)制,克服了傳統(tǒng)GCN、GAT無法建模邊類型的缺陷,更適用于建模概念圖譜此類異構(gòu)網(wǎng)絡(luò)。在利用RGAT得到實體稠密嵌入之后,我們使用TransE作為損失函數(shù)。TransE將三元組(h,r,t)中的r視為從h到t的翻譯向量,并約定h+r≈t。該方法被廣泛適用于知識圖譜補(bǔ)全任務(wù)當(dāng)中,顯示出極強(qiáng)的魯棒性和可拓展性。
具體細(xì)節(jié)如下圖所示,RGAT中每層結(jié)點(diǎn)的特征由鄰居結(jié)點(diǎn)特征的均值以及鄰邊特征的均值加權(quán)拼接而成,通過關(guān)系注意力機(jī)制,不同的結(jié)點(diǎn)和邊具有不同的權(quán)重系數(shù)。在得到最后一層的結(jié)點(diǎn)和邊特征后,我們利用TransE作為訓(xùn)練目標(biāo),對訓(xùn)練集中的每對三元組(h,r,t),最小化||h+r=t||。在預(yù)測時,對于每個頭實體和每種關(guān)系,圖譜所有結(jié)點(diǎn)作為候選尾實體與其計算距離,得到最終的尾實體。
圖17 概念承接關(guān)系補(bǔ)足圖示目前,概念承接關(guān)系整體準(zhǔn)確率90%左右。
3.5 POI/SPU-概念關(guān)系建設(shè)
建立圖譜概念和美團(tuán)實例之間的關(guān)聯(lián),會利用到POI/SPU名稱、類目、用戶評論等多個維度的信息。建立關(guān)聯(lián)的難點(diǎn)在于如何從多樣化的信息中獲取與圖譜概念相關(guān)的信息。因此,我們通過同義詞召回實例下所有與概念語義相關(guān)的子句,然后利用判別模型判斷概念與子句的關(guān)聯(lián)程度。具體流程如下:
同義詞聚類。對于待打標(biāo)的概念,根據(jù)圖譜同義詞數(shù)據(jù),獲取概念的多種表述。
候選子句生成。根據(jù)同義詞聚類的結(jié)果,從商戶名稱、團(tuán)單名稱、用戶評論等多個來源中召回候選子句。
判別模型。利用概念-文本關(guān)聯(lián)判別模型(如下圖所示)判斷概念和子句是否匹配。
打標(biāo)結(jié)果。調(diào)整閾值,得到最終的判別結(jié)果。
四、應(yīng)用實踐
4.1 到綜品類詞圖譜建設(shè)
美團(tuán)到綜業(yè)務(wù)涵蓋知識領(lǐng)域較廣,包含親子、教育、醫(yī)美、休閑娛樂等,同時每個領(lǐng)域都包含更多小的子領(lǐng)域,所以針對不同的領(lǐng)域建設(shè)領(lǐng)域內(nèi)的知識圖譜,能夠輔助做好搜索召回、篩選、推薦等業(yè)務(wù)。
在常識性概念圖譜中除了常識性概念數(shù)據(jù),同時也包含美團(tuán)場景數(shù)據(jù),以及基礎(chǔ)算法能力的沉淀,因此可以借助常識性圖譜能力,幫助建設(shè)到綜品類詞的圖譜數(shù)據(jù)。
借助常識性圖譜,補(bǔ)充欠缺的品類詞數(shù)據(jù),構(gòu)建合理的品類詞圖譜,幫助通過搜索改寫,POI打標(biāo)等方式提升搜索召回。目前在教育領(lǐng)域,圖譜規(guī)模從起初的1000+節(jié)點(diǎn)擴(kuò)展到2000+,同時同義詞從千級別擴(kuò)展到2萬+,取得了不錯的效果。
品類詞圖譜建設(shè)流程如下圖所示:
圖19 到綜品類詞圖譜建設(shè)流程4.2 點(diǎn)評搜索引導(dǎo)
點(diǎn)評搜索SUG推薦,在引導(dǎo)用戶認(rèn)知的同時幫助減少用戶完成搜索的時間,提升搜索效率。所以在SUG推薦上需要聚焦兩個方面的目標(biāo):①幫助豐富用戶的認(rèn)知,從對點(diǎn)評的POI、類目搜索增加自然文本搜索的認(rèn)知;②精細(xì)化用戶搜索需求,當(dāng)用戶在搜索一些比較泛的品類詞時,幫助細(xì)化用戶的搜索需求。
在常識性概念圖譜中,建立了很豐富的概念以及對應(yīng)屬性及其屬性值的關(guān)系,通過一個相對比較泛的Query,可以生成對應(yīng)細(xì)化的Query。例如蛋糕,可以通過口味這個屬性,產(chǎn)出草莓蛋糕、芝士蛋糕,通過規(guī)格這個屬性,產(chǎn)出6寸蛋糕、袖珍蛋糕等等。
搜索引導(dǎo)詞Query產(chǎn)出示例如下圖所示:
圖20 推薦Query挖掘示例4.3 到綜醫(yī)美內(nèi)容打標(biāo)
在醫(yī)美內(nèi)容展示上,用戶通常會對某一特定的醫(yī)美服務(wù)內(nèi)容感興趣,所以在產(chǎn)品形態(tài)上會提供一些不同的服務(wù)標(biāo)簽,幫助用戶篩選精確的醫(yī)美內(nèi)容,精準(zhǔn)觸達(dá)用戶需求。但是在標(biāo)簽和醫(yī)美內(nèi)容進(jìn)行關(guān)聯(lián)時,關(guān)聯(lián)錯誤較多,用戶篩選后經(jīng)??吹讲环献约盒枨蟮膬?nèi)容。提升打標(biāo)的準(zhǔn)確率能夠幫助用戶更聚焦自己的需求。
借助圖譜的概念-POI打標(biāo)能力和概念-UGC的打標(biāo)關(guān)系,提升標(biāo)簽-內(nèi)容的準(zhǔn)確率。通過圖譜能力打標(biāo),在準(zhǔn)確率和召回率上均有明顯提升。
準(zhǔn)確率:通過概念-內(nèi)容打標(biāo)算法,相比于關(guān)鍵詞匹配,準(zhǔn)確率從51%提升到91%。
召回率:通過概念同義挖掘,召回率從77%提升到91%。
五、總結(jié)與展望
我們對常識性概念圖譜建設(shè)工作以及在美團(tuán)場景中的使用情況進(jìn)行了詳細(xì)的介紹。在整個常識性概念圖譜中,按照業(yè)務(wù)需要包含三類節(jié)點(diǎn)和四類的關(guān)系,分別介紹了概念挖掘算法、不同種類的關(guān)系挖掘算法。
目前,我們常識性概念圖譜有200萬+的概念,300萬+的概念之間的關(guān)系,包含上下位、同義、屬性、承接等關(guān)系,POI-概念的關(guān)系不包含在內(nèi)。目前,整體關(guān)系準(zhǔn)確率在90%左右,并且還在不斷優(yōu)化算法,擴(kuò)充關(guān)系的同時提升準(zhǔn)確率。后續(xù)我們的常識性概念圖譜還會繼續(xù)完善,希望能夠做到精而全。
參考資料
[1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
[2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
[3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
[4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
[5] Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
[6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
[7] Malaviya, Chaitanya, et al. "Commonsense knowledge base completion with structural and semantic context." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
[8] 李涵昱, 錢力, 周鵬飛. "面向商品評論文本的情感分析與挖掘." 情報科學(xué) 35.1 (2017): 51-55.
[9] 閆波, 張也, 宿紅毅 等. 一種基于用戶評論的商品屬性聚類方法.
[10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. "Open relation extraction for chinese noun phrases." IEEE Transactions on Knowledge and Data Engineering (2019).
[11] Li, Feng-Lin, et al. "AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce." Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
[12] Yang, Yaosheng, et al. "Distantly supervised ner with partial annotation learning and reinforcement learning." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
[13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
[14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
[16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
[17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
[18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
[19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
[20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
[21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
[22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
[23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
作者簡介
宗宇、俊杰、慧敏、福寶、徐俊、謝睿、武威等,均來自美團(tuán)搜索與NLP部/NLP中心。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識圖譜算法、工具及平臺的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的领域应用 | 常识性概念图谱建设以及在美团场景中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 常识用于回答生成式多跳问题
- 下一篇: 论文浅尝 | 面向单关系事实问题的中文问