日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

领域应用 | 小米在知识表示学习的探索与实践

發布時間:2024/7/5 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 领域应用 | 小米在知识表示学习的探索与实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載公眾號 | DataFunTalk


導讀:知識表示是知識獲取與應用的基礎,貫穿了小米知識圖譜的構建與應用。本文將結合小米知識圖譜的構建及小愛問答場景,介紹融合文本和知識圖譜的知識表示學習方法,以及知識表示在知識圖譜補全、實體鏈接、實體推薦等任務的落地。主要圍繞以下3點展開:

  • 業務介紹,小米知識圖譜的架構和業務;

  • 算法介紹,融合文本和知識圖譜的表示學習方法;

  • 算法應用,知識表示學習在實體鏈接、實體推薦、知識補全的應用;

01

業務介紹

1. 小米知識圖譜團隊

小米知識圖譜團隊,旨在硏究知識圖譜在開放領域和行業領域的構建和應用技術,把知識圖譜推廣到相關的業務場景上。目前團隊已經構建了大規模、高質量的知識圖譜,提供了實體檢索、實體鏈接、概念圖譜等服務,并且服務于小愛同學、小米網、小米信息流等業務方。

2. 知識圖譜為小愛賦能

這是一個知識圖譜為小愛賦能的例子。當用戶詢問鞏俐籍貫的時候,我們從庫中給出相應的答案,與鞏俐相關的實體信息。下面簡單介紹一下處理流程。

當用戶詢問一個問題(query)時,比如說問題是“武漢大學周邊有什么好吃的?”,它的解答流程就是:

① 首先語言識別出這句話的文本內容;

② 然后通過分析發現用戶的意圖是想詢問“美食”相關的事物;

③ 接著通過實體匹配去進行核心實體的識別,實體的歧義性消除以及屬性的歸一等處理,確定用戶詢問的是全國重點大學“武漢大學”這個實體的“周邊美食”這個屬性;

④ 據此從庫中查詢相應的結果,并且作為輸出;

⑤ 另外我們還會針對該實體做實體的推薦,以此實現相似問題的推薦;

02

算法介紹

知識表示學習是指基于分布式的表示思想,將實體或者是關系的語義信息映射到低維、稠密、實值的向量空間中,使得語義相似的兩個對象之間的距離也很相近。

最常見的表示學習方法是融合事實信息的方法,比如基于翻譯、張量分解、神經網絡和圖神經網絡的各種模型。但是這些模型并不善于處理大規模知識圖譜中存在實體與關系長尾分布的問題。在圖譜中,長尾分布體現為很多實體數量極少甚至沒有關系事實,這就導致數據存在很嚴重的稀疏性。

對于這些長尾的實體和關系,在沒有或者很少關系的情況下,僅基于傳統的事實三元組(頭部,關系,尾部)進行學習,是沒有辦法得到的。對此大佬們嘗試了各種五花八門的解決辦法,最簡單直接的就是:

① 利用知識庫中其他的信息,比如說文本描述信息、信息實體類型、關鍵路徑、邏輯規則等,還包括實體的屬性、時序信息、圖結構等;

② 利用知識庫外的海量信息,比如說互聯網等,包含大量知識庫實體和關系的有關的信息。

1. 融合文本描述的優勢

融合文本描述的優勢有哪些?

  • 發掘實體之間的語義相關性,精確的語義表述能夠提升三元組的可區分性。在上面的例子中我們可以看到{撒貝寧,配偶,李白},而李白的描述文本中就存在“撒貝寧妻子”這樣的關鍵信息。該情境下,融合文本描述的語義信息能夠幫助發掘更多的語義之間的相關性;

  • 當一些實體對于現有的知識圖譜來說是新的,并且僅僅帶有描述性信息的時候,傳統的知識圖譜表示學習方法不能夠表示這些新的實體,但是融入了文本描述的模型,就能夠通過描述信息建立這些實體的表達。

文本描述如何構成呢?我們的處理方式是將實體的類型、文本描述和重要的三元組按照一定的規則進行拼接,構成一段文本,作為實體的描述文本,這段文本比簡單的文本描述包含更多的信息。

2. 文本與知識圖譜對齊

下面將會介紹兩種經典的融合文本和知識圖譜的知識表示學習方法,這兩種方法都可以將實體向量、關系向量和詞向量放到同一個語義空間下。為什么要把文本以及詞向量放到一個空間中?因為如果我們遇到了需要同時處理文本和實體的任務,實體和文本中的詞做內積等向量運算才會有意義,依靠這些運算方法我們就能比較實體和文本之間的詞的關系。

這一篇文章描述了比較經典的文本與知識圖譜對齊的模型Jointly(聯合模型),作者先后發表了兩篇論文來優化該方法。文章研究的內容是融合文本信息到知識圖譜中,實現知識圖譜中的實體和實體描述文本聯合嵌入表示。對齊模型的關鍵在于將實體向量、關系向量和詞向量表示在同一個語義空間下。要求實體的表示向量不僅滿足知識圖譜的結構化約束,同時也要被文本描述中的詞向量進行約束。模型一共分為三個部分:

  • 文本嵌入:采用skip-gram模型,利用歐式距離衡量兩個單詞之間的相似性,訓練詞與詞之間的約束;

  • 知識嵌入:采用Trans-E模型,訓練實體與實體之間的約束;

  • 對齊模型:利用文本描述對齊,訓練實體和文本之間的約束,確保關系能夠和文本的單詞在同一個語義空間中。

第二篇論文也根據類似的原理,將基于平移的嵌入方法從特定的三元組嵌入擴展到了文本感知模型,提出了名為DKRL的模型。該模型的特點是:

  • 對于事實元組論文采用了典型的Trans-E模型,通過最大似然值獲得實體和關系的嵌入;

  • 對于描述文本,論文使用了連續詞袋模型和深度卷積模型對文本進行嵌入。連續詞袋模型忽略了文本的詞序,而卷積模型會考慮詞序;

  • 對每一個實體,DKRL都會學習語義的嵌入和結構的嵌入,再通過右側的一系列公式進行擬合。

3. 需求和實現

后續任務需要通過預訓練得到詞向量,實體向量,并且保證兩者之間需要能夠計算相似度,同時也要保證實體向量和實體向量之間可以計算相似度。上文介紹的兩個模型均可以滿足該需求。右上的表格展示了幾個不同的模型在鏈接預測任務上的效果,聯合模型,即第一篇論文中的模型展現了較好的效果,于是我們基于該模型對實體和詞進行了訓練,得到了詞向量、關系向量以及實體向量。該模型的效果具體體現在:

  • 由圖一(左上)可以看到“王者榮耀”這個詞和“李白”的候選實體之間的相似度評分,該分數表明模型學習到了詞和實體之間的關聯;

  • 由圖二(右上)可以看到雖然“唐代詩人李白”的文本描述中不存在“將進酒”一詞,但是模型也學到了其關聯;

  • 圖三圖四(左下和右下)顯示,模型也學習到了實體向量與實體向量之間的關系,比如植物“小米”實體向量和水果“蘋果”實體向量比較靠近,而“小米公司”的實體向量和“蘋果公司”的實體向量比較靠近。

這些特性對完成后續的任務有很大的幫助。

03

算法應用

1. 實體鏈接

實體鏈接任務目標是把文本中的實體指稱項,即實體名稱,鏈接到知識庫中對應的實體上。

舉一個例子來幫助大家理解實體鏈接,比如問題“王者榮耀中的李白有哪些臺詞?”,為了解答這個問題我們需要:

① 識別句子中的核心實體“李白”;

② 從庫中檢索“李白”所有的候選實體;

③ 實體鏈接,從眾多的候選實體中找到正確的實體,與句子中的“李白”進行關聯;

實體鏈接的難點主要有兩個方面:

  • 實體會有不同的表達方式(mention),比如“青蓮居士、李太白”,也對應了李白這個實體;

  • 同一個表達方式也會對應不同的實體,比如說“王者榮耀中李白的技能是什么?”,“李白和杜甫并稱為什么?”,這兩句中實體的表達方式都是“李白”,但是對應了不同的實體。

左側圖中展示了實體鏈接的處理流程,這里詳細介紹一下實體消歧部分。

實體消歧包括兩個模塊,第一個部分是粗排,第二個部分是精排。

關于粗排

為什么要做粗排處理?

在做候選實體生成時,我們希望從庫中獲取盡可能多的相關實體,確保沒有遺漏正確實體。但這樣做會導致消歧這一步驟被引入了太多的噪聲,造成消歧效率的下降。所以需要粗排模型來降低候選實體的個數。經過實驗,粗排后,消歧準確率提升了3%,預測的速度提升了50%,而召回率僅僅下降了0.4%。

舉個例子,比如“王者榮耀中的李白有哪些臺詞?”這個問題,在我們的庫中“王者榮耀”的候選實體有71個,“李白”的候選實體有59個。在粗排時,我們會為每一個候選實體進行打分,按照相關度從大到小進行排列,選擇每一個mention所對應的最相似的n個實體(Top n),作為精排的輸入。

如何實現粗排?

粗排模型,要求高召回、高性能。我們采用了上一節中融合多元信息知識表示學習方法所訓練得到的實體向量和詞向量,因為他們處在同一個向量空間中,我們可以對其進行向量計算。定義了三個特征,分別是Context和Coherence以及LinkCount:

  • Context 表示mention的上下文特征,它通過候選實體向量和問題中的每一個詞向量進行乘積運算得到,用于發現問題中哪些詞和候選實體相關;

  • Coherence 表示實體的一致性,通過計算候選實體和問題中其他mention的候選實體相關性來實現;

  • LinkCount 表示實體的先驗知識,通過標注數據而來。

利用一個多層感知機對這三個特征進行融合,最終得到每一個候選實體的粗排分數。排列并選擇每一個mention所對應的最相似的Top n個實體,作為精排的輸入。

關于精排

在粗排之后,每一個mention的候選實體個數被大大降低,此時我們會對這些實體進行精排處理。精排模型中,我們利用Bert構建一個句子對二分類模型,用來判斷候選實體和問題中的mention相關度。具體流程如下:

① 該模型的輸入是一個句子對,text_a是標記了mention位置的文本,text_b是候選實體的描述文本。句子對經過Bert編碼之后取[CLS]向量,再經過全連接層,得到上下文特征;

② 合并粗排的三個特征進行全連接的融合訓練;

③ 對候選實體進行二次排序;

④ 判斷是否為未知實體;

⑤ 選擇Top 1的實體作為mention鏈接的實體;

在模型訓練時,我們對訓練方法進行了一些優化。利用知識圖譜中的關系三元組構建消歧的樣本,關系三元組包括頭實體、關系和尾實體,頭實體和尾實體有多種表達方式(mention),利用這些不同的表達方式,我們可以去構建大量的正負樣本,來幫助我們去學習mention和實體之間的語義特征關系。經過第一次的預訓練,只需要再訓練少量經過標注的線上數據,模型就可以達到較好的消歧效果。

2. 實體推薦

實體推薦任務的目標是根據給定的實體推薦一系列相關的實體,這兩張圖展示了我們的實體推薦的應用場景。我們對實體推薦的工作暫時還處于起步的階段,并沒有考慮復雜的個性化推薦,目前只關注實體之間的相似度。

左圖展示了實體鏈接如何應用于智能問答問題推薦,問題通過SLU處理之后會得到其意圖和主實體,然后借助實體推薦得到相關的實體,相關實體被用來構建相關的問題,比如說”武漢大學周邊好吃的?“,識別到其主實體為”武漢大學“、核心意圖為”美食“,以此推薦實體相關的問題,比如說”華中科技大學周邊有什么好吃的?“,”清華大學周邊有什么好吃的?“,”武漢科技大學周邊有什么好吃的?“。同時實現了推薦意圖相關的問題,比如說”武漢大學周邊有什么好玩的?“,”武漢大學周邊有什么景點?“,”武漢大學周邊有什么酒店?“等等。

右圖展示了實體推薦在圖譜自動化構建平臺上的應用,當用戶搜索一個實體的時候,平臺會為其推薦相關的實體。

實體推薦的難點在于“冷啟動問題”,即如何去尋找實體的相關實體。

我們發現百科頁面關系三元組以及新聞中的共現實體,都可以作為相關實體進行推薦。于是我們對百科頁面知識圖譜中的關系三元組和經過實體鏈接處理的新聞中的實體進行抽取,以類別為標準進行篩分,作為實體推薦模型的正樣本。而負樣本可以從庫中的其他實體中抽取。

實體推薦模型分為兩個部分,表示模型和匹配模型:

  • 表示模型利用第二節中的DKRL模型進行知識表示學習。學習關系三元組中的結構化信息,編碼部分使用Bert進行替換;

  • 匹配模型利用DSSM模型,復用了表示模型中學習到的參數,將兩個實體編碼成向量,通過計算余弦相似度來去衡量兩個實體之間的相關度。

3. 知識補全

在構建知識圖譜時,需要從半結構化或者非結構化數據中抽取三元組,但這些三元組難免會存在信息缺失情況,比如左圖中,小米代表人物中林斌、王翔等人,都缺失了超鏈接,撒貝寧配偶、父母、妹妹也都缺失了超鏈接,這就導致在構建知識圖譜時,不能獲取完整的關系三元組。

實體補全任務可以概括為:針對已知的頭實體、關系和尾實體mention的情況下,關聯庫中的實體以補全三元組。我們的設計方案如下:

① 利用Schema去確定尾實體的類別;

② 通過尾實體的mention篩選得到尾實體的候選實體,構造三元組;

③ 通過三元組分類模型判斷構造的三元組是否正確;

④ 經過對這些三元組的分數進行排序之后,選擇Top 1且預測正確的三元組。

三元組的構建也考慮了描述實體的文本,我們再次利用了神通廣大的BERT完成模型的構建,參考了KG-BERT這篇論文。

將已知的關系三元組如上圖所示進行構造,text_a是頭實體的描述文本,text_b是關系的文本名稱,text_c是尾實體的描述文本,這些輸入經過BERT的編碼之后,再經過一個全連接層,計算得到語義特征,并和另外一個結構化的特征進行融合,最終得到一個分數。這里的“結構化特征”由藍色框中的方程進行表示,整個模型的loss,可以用紅色框中的方程表示。

舉個例子,比如判斷三元組{撒貝寧,配偶,李白}是否正確,“李白”的第一個候選實體是正確的,可以作為正樣本,其他實體都是負樣本,然后對模型進行訓練,預測每一對自動構建的三元組的分數,按照從大到小的順序進行排序,選擇分數大于0.5且Top 1的三元組作為正確的三元組,補充到知識圖譜當中。

04

總結與展望

本文簡單介紹了知識表示學習在實體鏈接、實體推薦和知識補全中的應用;和word2vec一樣,通過知識表示學習得到的實體向量可以應用到很多場景中;工業界實用最重要,很多場景下,對模型的復雜性很敏感,選擇模型需要綜合考量。知識表示學習的探索之路還有很長,同志們加油!!!

參考文獻

1. Wang Z, Zhang J, Feng J, et al. Knowledge graph and text jointly embedding[C] //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1591-1601.

2. Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 267-272.

3. Xie R, Liu Z, Jia J, et al. Representation learning of knowledge graphs with entity descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016, 30(1).

4. Xiao H, Huang M, Meng L, et al. SSP: semantic space projection for knowledge graph embedding with text descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2017, 31(1).

5. Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.

6. Yao L, Mao C, Luo Y. KG-BERT: BERT for knowledge graph completion[J]. arXiv preprint arXiv:1909.03193, 2019.

7. 劉知遠, 孫茂松, 林衍凱, 等. 知識表示學習研究進展[J]. 計算機研究與發展, 2016, 53(2): 247.

今天的分享就到這里,謝謝大家。


分享嘉賓:

峰會推薦:

7月10日,DataFun將舉辦自然語言處理峰會,屆時將邀請包括來自小米等公司的多位重量級嘉賓,就NLP的基礎技術、語義表示與計算、多模理解與生成、信息抽取與檢索、人機對話與交互、產業創新與實踐、機器翻譯與同傳等話題進行深度分享,歡迎小伙伴們識別二維碼,了解詳情,并報名參與,本次峰會將全程直播!


?

OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的领域应用 | 小米在知识表示学习的探索与实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。