知识图谱关键技术总览
[1] 馬忠貴,倪潤宇,余開航.知識(shí)圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn)[J].工程科學(xué)學(xué)報(bào),2020,42(10):1254-1266.DOI:10.13374/j.issn2095-9389.2020.02.28.001.
文章目錄
- 知識(shí)抽取與表示
- 知識(shí)融合
- 知識(shí)推理與質(zhì)量評估
- 質(zhì)量評估
- 知識(shí)圖譜應(yīng)用
- 知識(shí)圖譜的挑戰(zhàn)與展望
- 知識(shí)融合技術(shù)
- 知識(shí)推理技術(shù)
- 知識(shí)的表示、存儲(chǔ)和查詢
知識(shí)圖譜全生命周期主要包括3種關(guān)鍵技術(shù):
知識(shí)抽取與表示
對于知識(shí)圖譜首要的問題是:如何從海量的數(shù)據(jù)提取有用信息并將得到的信息有效表示并儲(chǔ)存,即知識(shí)抽取與表示
其主要目的是從樣本源中抽取特定種類的信息,然后以三元組(主語,謂語,賓語)的形式保存。針對信息抽取的種類不同,知識(shí)抽取分為實(shí)體抽取、關(guān)系抽取和屬性抽取,如下是知識(shí)圖譜的技術(shù)架構(gòu):
-
實(shí)體抽取(命名實(shí)體識(shí)別)
從樣本源中識(shí)別出命名實(shí)體
- 基于規(guī)則與詞典的方法
- 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法
- 面向開放域的抽取方法
-
關(guān)系抽取
通過實(shí)體抽取獲得的實(shí)體之間往往是離散且無關(guān)聯(lián)的,通過關(guān)系抽取,簡歷起實(shí)體之間的語義鏈接
- 基于模板的關(guān)系抽取
- 基于監(jiān)督學(xué)習(xí)的關(guān)系抽取
- 基于半監(jiān)督或無監(jiān)督學(xué)習(xí)的關(guān)系抽取
-
屬性抽取
補(bǔ)全實(shí)體信息,通過從樣本源中獲取實(shí)體屬性信息或?qū)傩灾?#xff0c;實(shí)體屬性可以看作是屬性值與實(shí)體的一種關(guān)系,可以通過關(guān)系抽取的解決思路獲得
知識(shí)融合
由于知識(shí)來源的不同,導(dǎo)致知識(shí)質(zhì)量參差不齊,知識(shí)之間存在沖突或者重疊,因此可以利用知識(shí)融合技術(shù)對多源知識(shí)進(jìn)行處理,一方面提高知識(shí)圖譜的質(zhì)量,另一方面豐富知識(shí)的存量。
知識(shí)融合方法主要有三個(gè)方面:實(shí)體消岐、實(shí)體對齊和知識(shí)合并
-
實(shí)體消岐
https://blog.csdn.net/m0_46246301/article/details/122748121
因數(shù)據(jù)來源復(fù)雜,存在著同名異義的實(shí)體.例如,名稱為“喬丹”的實(shí)體既可以指美國著名籃球運(yùn)動(dòng)員,也可以指葡萄牙足球運(yùn)動(dòng)員,還可以指某個(gè)運(yùn)動(dòng)品牌.為了確保每一個(gè)實(shí)體有明確的含義,采用實(shí)體消歧技術(shù)來使得同名實(shí)體得以區(qū)分。
- 根據(jù)有無目標(biāo)知識(shí)庫劃分
- 基于無監(jiān)督聚類的實(shí)體消岐
- 基于詞袋模型的聚類
- 基于語義特征的聚類
- 基于社會(huì)網(wǎng)絡(luò)的聚類
- 基于百科知識(shí)的聚類
- 基于多源異構(gòu)語義知識(shí)融合的聚類
- 基于實(shí)體鏈接的實(shí)體消岐
- 基于知識(shí)庫的實(shí)體鏈接系統(tǒng)
- 基于知識(shí)圖譜的實(shí)體鏈接系統(tǒng)
- 基于無監(jiān)督聚類的實(shí)體消岐
- 根據(jù)有無目標(biāo)知識(shí)庫劃分
-
實(shí)體對齊
在現(xiàn)實(shí)生活中,一個(gè)事物對應(yīng)著不止一個(gè)稱呼。針對這些同義異名的實(shí)體,通過實(shí)體對齊可以將這些實(shí)體指向同一客觀事物。
- 基于決策樹的自適應(yīng)屬性選擇的實(shí)體對齊方法
- 全自動(dòng)的實(shí)體對齊框架(候選實(shí)體生成器、選擇器和清理器,利用搜索引擎)
- 大規(guī)模相似性模型
- 同義發(fā)現(xiàn)框架
- 基于深度學(xué)習(xí)的實(shí)體對齊方法
- SIF
- RNN
- Attention
- Hybrid
- 基于嵌入表示的實(shí)體對齊
- 基于無監(jiān)督學(xué)習(xí)的實(shí)體對齊
- 多視角的實(shí)體對齊
參考文獻(xiàn):[44-51]
-
知識(shí)合并
現(xiàn)存的知識(shí)庫或者知識(shí)圖譜都是各種機(jī)構(gòu)或者組織根據(jù)自己的需求設(shè)計(jì)創(chuàng)建,其中的知識(shí)也存在著多樣性和異構(gòu)性,并且存在很多知識(shí)上的重復(fù)和錯(cuò)誤,因此需要使用知識(shí)合并技術(shù)。
知識(shí)圖譜的合并分為:數(shù)據(jù)層的合并和模式層的合并
- 基于特征嵌入向量的知識(shí)合并
- 基于嵌入的半監(jiān)督跨語言學(xué)習(xí)方法
- 多通道圖神經(jīng)網(wǎng)絡(luò)模型
知識(shí)推理與質(zhì)量評估
知識(shí)推理技術(shù)可以提升知識(shí)圖譜的完整性和準(zhǔn)確性。
知識(shí)推理方法包括:
基于圖結(jié)構(gòu)和統(tǒng)計(jì)規(guī)則挖掘的推理
基于知識(shí)圖譜的圖結(jié)構(gòu)以及挖掘蘊(yùn)藏在知識(shí)圖譜中的規(guī)則進(jìn)行推理
- PRA
- CPRA
- Agent
- Attention
- 深度圖傳播模型
基于知識(shí)圖譜表示學(xué)習(xí)的推理
表示模型將知識(shí)圖譜中相應(yīng)的實(shí)體和關(guān)系用向量、矩陣或者張量的形式表示
表示后進(jìn)行運(yùn)算完成知識(shí)推理任務(wù)
- 基于距離的推理模型
- TransE
- TransH
- TransR
- TransF
- 基于語義匹配的推理模型
- RESCAL
- DisMult
- Complex
- ANALOGY
基于神經(jīng)網(wǎng)絡(luò)的推理
基于神經(jīng)網(wǎng)絡(luò)的推理方法將知識(shí)圖譜中事實(shí)元組表示為向量形式送入神經(jīng)網(wǎng)絡(luò)中,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)不斷提高事實(shí)元組的得分,最終通過輸出得分選擇候選實(shí)體完成推理
- NTN(神經(jīng)張量網(wǎng)絡(luò))
- RCNN
混合推理
結(jié)合多種方法的優(yōu)勢來提升推理效果
- Agent
- ReNN
- IterE
質(zhì)量評估
通過質(zhì)量評估技術(shù)來對新知識(shí)進(jìn)行篩選,是構(gòu)建知識(shí)圖譜中必不可少的環(huán)節(jié)
- LDIF
- CQUAL
知識(shí)圖譜應(yīng)用
知識(shí)圖譜技術(shù)的發(fā)展得益于自然語言處理、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,而不斷完善的知識(shí)圖譜技術(shù)也可以應(yīng)用到自然語言處理、智能問答系統(tǒng)、智能推薦系統(tǒng)等技術(shù)中,進(jìn)一步促進(jìn)這些技術(shù)的發(fā)展。 進(jìn)一步促進(jìn)這些技術(shù)的發(fā)展,而這些技術(shù)以及知識(shí)圖譜技術(shù)又可以進(jìn)一步應(yīng)用在諸如醫(yī)療、金融、電商等垂直行業(yè)或領(lǐng)域內(nèi),幫助促進(jìn)行業(yè)發(fā)展。
- 構(gòu)建完備的知識(shí)圖譜可以幫助自然語言理解技術(shù)發(fā)展
- 短文本嵌入表示后送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類
- 知識(shí)圖譜語言模型
- 智能問答系統(tǒng)可以依靠知識(shí)圖譜中的知識(shí)來回答查詢
- BERT模型和雙向長短期記憶網(wǎng)絡(luò)結(jié)合,條件隨機(jī)場預(yù)測字符標(biāo)簽
- 知識(shí)圖譜可作為外部信息整合至推薦系統(tǒng)中,使得推薦系統(tǒng)獲得推理能力
- 知識(shí)圖譜注意力網(wǎng)絡(luò)模型
- 在垂直行業(yè)或領(lǐng)域內(nèi),知識(shí)圖譜已開始應(yīng)用
- 在醫(yī)療領(lǐng)域,通過提供更加精確規(guī)范的行業(yè)數(shù)據(jù)以及更加豐富的表達(dá),幫助非行業(yè)相關(guān)人員獲取醫(yī)療知識(shí)的同時(shí)也幫助行業(yè)人員更直觀快捷獲取所需醫(yī)療知識(shí)
- 在金融領(lǐng)域,借助知識(shí)圖譜檢測數(shù)據(jù)的不一致性,來識(shí)別潛在的欺詐風(fēng)險(xiǎn)
- 在電商領(lǐng)域,阿里巴巴已經(jīng)通過應(yīng)用知識(shí)圖譜,建立商品間的關(guān)聯(lián)信息,為用戶提供更全面的商品信息和更智能化的推薦,從而提升用戶的購物服務(wù)與體驗(yàn)
- 知識(shí)圖譜也在教育、科研、軍事等領(lǐng)域中廣泛應(yīng)用
知識(shí)圖譜的挑戰(zhàn)與展望
知識(shí)融合技術(shù)
目標(biāo):將新獲得的知識(shí)融人知識(shí)圖譜中
挑戰(zhàn):
- 為了保證融合后知識(shí)圖譜的質(zhì)量,首先要提升知識(shí)評估的能力.現(xiàn)存的知識(shí)評估方法大都是針對靜態(tài)知識(shí)進(jìn)行評估,缺少動(dòng)態(tài)知識(shí)評估手段是目前知識(shí)評估面臨的一大挑戰(zhàn)
- 要解決由自然語言的特殊性引發(fā)的知識(shí)冗余和缺失問題.當(dāng)知識(shí)圖譜不能準(zhǔn)確將具有同義異名的實(shí)體對齊或?qū)?strong>同名異義的實(shí)體消歧就會(huì)導(dǎo)致知識(shí)圖譜中出現(xiàn)知識(shí)冗余或缺失
- 目前,因自然語言的復(fù)雜性,在單一語言的背景下實(shí)體對齊和實(shí)體消歧的準(zhǔn)確率仍然有待提高,針對多語言實(shí)體對齊或消歧更是一大挑戰(zhàn)
知識(shí)推理技術(shù)
目標(biāo):通過已知的知識(shí)推理獲得新知識(shí)來完善知識(shí)圖譜
挑戰(zhàn):
- 知識(shí)推理的主要對象多是二元關(guān)系,通常處理多元關(guān)系的方法是將其拆分為二元關(guān)系進(jìn)行推理,然而將多元關(guān)系拆分會(huì)損失結(jié)構(gòu)信息,如何盡可能完整地利用多元關(guān)系中復(fù)雜的隱含信息推理是知識(shí)推理的一大挑戰(zhàn)
- 現(xiàn)有的知識(shí)推理往往都是基于大量高質(zhì)量的數(shù)據(jù)集訓(xùn)練推理模型,在相應(yīng)的測試集中測試優(yōu)化模型來完成推理.除了數(shù)據(jù)集獲取成本高的問題,通過數(shù)據(jù)集訓(xùn)練的模型的泛化能力也極為有限,而現(xiàn)實(shí)世界中人類通過少量樣本學(xué)習(xí)即可完成推理.如何模仿人腦機(jī)制實(shí)現(xiàn)小樣本或零樣本學(xué)習(xí)知識(shí)推理也是一大挑戰(zhàn)
- 知識(shí)圖譜中知識(shí)的有效性往往受到時(shí)間空間等動(dòng)態(tài)因素約束,如何合理利用知識(shí)的動(dòng)態(tài)約束信息完成動(dòng)態(tài)推理也是知識(shí)推理的一大挑戰(zhàn)
知識(shí)的表示、存儲(chǔ)和查詢
挑戰(zhàn):
- 目前,應(yīng)用在行業(yè)領(lǐng)域的知識(shí)圖譜因?yàn)楹艽蟪潭壬弦蕾嚾斯さ膮⑴c構(gòu)建,成本高昂.大多數(shù)研究工作主要針對知識(shí)圖譜的半自動(dòng)構(gòu)建,如何自動(dòng)構(gòu)建高質(zhì)量知識(shí)圖譜是知識(shí)圖譜應(yīng)用所面臨的一大挑戰(zhàn)
- 知識(shí)擁有指導(dǎo)功能,利用知識(shí)圖譜中的知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)中的數(shù)據(jù)學(xué)習(xí),從而降低數(shù)據(jù)依賴打破數(shù)據(jù)紅利損耗殆盡后的僵局,是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)
- 利用人類易懂的符號(hào)化知識(shí)圖譜,解釋各類機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的過程,補(bǔ)足其在可解釋性方面的短板,也是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)
- 未來,能否應(yīng)用知識(shí)圖譜中的知識(shí),作為已知的經(jīng)驗(yàn),通過訓(xùn)練構(gòu)建人工智能層面上的心智模型,同樣是知識(shí)圖譜應(yīng)用的一大挑戰(zhàn)
知識(shí)圖譜中的知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)中的數(shù)據(jù)學(xué)習(xí),從而降低數(shù)據(jù)依賴打破數(shù)據(jù)紅利損耗殆盡后的僵局,是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)
- 利用人類易懂的符號(hào)化知識(shí)圖譜,解釋各類機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的過程,補(bǔ)足其在可解釋性方面的短板,也是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)
- 未來,能否應(yīng)用知識(shí)圖譜中的知識(shí),作為已知的經(jīng)驗(yàn),通過訓(xùn)練構(gòu)建人工智能層面上的心智模型,同樣是知識(shí)圖譜應(yīng)用的一大挑戰(zhàn)
總結(jié)
以上是生活随笔為你收集整理的知识图谱关键技术总览的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 语法分析:自上而下分析
- 下一篇: 中国输配电设备产业需求形势及运行战略规划