日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

發(fā)布時間:2025/3/15 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

來源:《大數(shù)據(jù)

醫(yī)學知識圖譜構(gòu)建關(guān)鍵技術(shù)及研究進展

譚玲1,?鄂海紅1,?匡澤民2,?宋美娜1,?劉毓1,?陳正宇1,?謝曉璇1,?李峻迪1,?范家偉1,?王晴川1,?康霄陽1

1?北京郵電大學

2?首都醫(yī)科大學附屬北京安貞醫(yī)院

?摘要隨著互聯(lián)網(wǎng)技術(shù)的不斷迭代更新,對海量數(shù)據(jù)的語義理解變得越來越重要。知識圖譜是一種揭示實體之間關(guān)系的語義網(wǎng)絡,醫(yī)學是知識圖譜應用較廣的垂直領(lǐng)域之一,醫(yī)學知識圖譜的構(gòu)建也是目前國內(nèi)外人工智能領(lǐng)域研究的熱點。從醫(yī)學知識圖譜本體構(gòu)建出發(fā),依次對命名實體識別、實體關(guān)系抽取、實體對齊、實體鏈接、知識圖譜存儲、知識圖譜應用進行綜述,詳細介紹了近年來醫(yī)學知識圖譜構(gòu)建過程中涉及的難點、現(xiàn)有技術(shù)、挑戰(zhàn)及未來研究方向,并介紹了醫(yī)學知識圖譜應用,最后對未來發(fā)展方向進行了展望。

關(guān)鍵詞?醫(yī)學知識圖譜?;?構(gòu)建?;?關(guān)鍵技術(shù)?;?研究進展

論文引用格式:

譚玲, 鄂海紅, 匡澤民, 等. 醫(yī)學知識圖譜構(gòu)建關(guān)鍵技術(shù)及研究進展[J]. 大數(shù)據(jù), 2021, 7(4): 80-104.

TAN L,E H H, KUANG Z M, et al . Key technologies and research progress of medical knowledge graph construction[J]. Big Data Research, 2021, 7(4): 80-104.


1 引言

人工智能的發(fā)展已經(jīng)進入快車道,作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,人工智能技術(shù)正在深入各行各業(yè),悄無聲息地改變著人們?nèi)粘I畹姆椒矫婷?。知識圖譜是由谷歌(Google)公司在2012年提出的一個概念,本質(zhì)上是語義網(wǎng)的知識庫。知識圖譜由節(jié)點和邊組成,節(jié)點表示實體,邊表示實體與實體之間的關(guān)系,這是最直觀、最易于理解的知識表示和實現(xiàn)知識推理的框架,奠定了第三代人工智能研究的基礎(chǔ)。

目前,醫(yī)學是知識圖譜應用較廣的垂直領(lǐng)域之一,也是目前國內(nèi)外人工智能領(lǐng)域研究的熱點。醫(yī)學知識圖譜在臨床診斷、治療、預后等方面均可發(fā)揮較大的作用。高效地將知識圖譜應用于醫(yī)學領(lǐng)域?qū)⒔o人類的醫(yī)療衛(wèi)生帶來革命性的變化。由于醫(yī)學領(lǐng)域數(shù)據(jù)的特殊性,醫(yī)學知識圖譜的構(gòu)建也面臨不少機遇與挑戰(zhàn)。

本文對醫(yī)學知識圖譜構(gòu)建的關(guān)鍵技術(shù)及應用進行了全面的梳理,對各類公共數(shù)據(jù)集、處理醫(yī)學問題的特異性難點及現(xiàn)有解決辦法進行了綜述。通過閱讀本文,可以了解醫(yī)學知識圖譜的發(fā)展現(xiàn)狀、未來發(fā)展方向以及面臨的挑戰(zhàn),便于醫(yī)學知識圖譜研究者參照對比,加快醫(yī)學知識圖譜領(lǐng)域的研究及臨床落地應用。

本文主要按照醫(yī)學知識圖譜構(gòu)建的流程來闡述,主要框架如圖1所示。

圖1???醫(yī)學知識圖譜構(gòu)建框架

2 醫(yī)學本體構(gòu)建

網(wǎng)絡上文本數(shù)據(jù)的爆炸式增長,以及對本體需求的增加,促進了語義網(wǎng)絡的發(fā)展,使得基于文本的本體自動構(gòu)建成為一個非常有前途的研究領(lǐng)域。文本本體學習是一種以機器可讀形式(半)自動地從文本中提取和表示知識的過程。本體被認為是在語義網(wǎng)絡上以更有意義的方式表示知識的主要基石之一。

2.1 本體構(gòu)建定義及任務

萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)將本體論定義為用于描述和表示知識領(lǐng)域的術(shù)語。本體是一個數(shù)據(jù)模型,它表示一組概念以及一個域中這些概念之間的關(guān)系。

本體構(gòu)建可以定義為從頭創(chuàng)建本體或重用現(xiàn)有本體以豐富或填充現(xiàn)有本體的迭代過程。構(gòu)建本體的過程包括以下6個任務:

● 指定一個域以創(chuàng)建定義良好的術(shù)語和概念;

● 識別域中的關(guān)鍵術(shù)語、概念及其關(guān)系;

● 建立或推斷描述域結(jié)構(gòu)屬性的規(guī)則和公理;

● 使用支持本體的表示語言(如資源描述框架(resource description framework,RDF)、資源描述框架模式(resource description framework schema,RDFS)或網(wǎng)絡本體語言(Web ontology language,OWL))對構(gòu)建的本體進行編碼(表示);

● 將構(gòu)建的本體與現(xiàn)有本體結(jié)合(如果現(xiàn)有本體可用);

● 通過使用通用和特定的評估度量來評估構(gòu)建的本體。

2.2 醫(yī)學本體構(gòu)建難點及現(xiàn)有技術(shù)

隨著對許多醫(yī)學本體構(gòu)建研究的深入,目前醫(yī)學本體庫的構(gòu)建主要存在以下難點。

首先應該盡可能減少在本體構(gòu)建過程中的人為干預。目前實現(xiàn)本體構(gòu)建過程的完全自動化是不現(xiàn)實的,怎樣減少人為干預是目前醫(yī)學本體構(gòu)建的一個難點和熱點。2018年,Mazen A等人提出了一種新的本體自動生成框架,即鏈接開放數(shù)據(jù)項目授權(quán)的生物醫(yī)學本體自動生成(linked open data approach for automatic biomedical ontology generation,LOD-ABOG)方法。與現(xiàn)有框架相比,參考文獻[3]的評估結(jié)果顯示,大多數(shù)本體生成任務的結(jié)果有所改善。該參考文獻提出的LOD-ABOG框架表明,現(xiàn)有的LOD源和技術(shù)是一個很有前途的解決方案,可以在更大程度上實現(xiàn)生物醫(yī)學本體生成和關(guān)系提取過程的自動化。另外,與現(xiàn)有的框架在本體開發(fā)過程中需要領(lǐng)域?qū)<业膮⑴c不同,該參考文獻提出的方法只要求領(lǐng)域?qū)<以诒倔w構(gòu)建周期結(jié)束時參與到本體的改進中。

2019年,Lytvyn V等人提出了從自然文本中提取知識的方法和算法(包括一個基于本體引入的概念、關(guān)系、謂詞和規(guī)則的多層次過程),建立了一種基于本體的本體開發(fā)方法,該方法利用現(xiàn)有本體對文本文檔進行分析,構(gòu)建了命名和本體術(shù)語體系。這使得本體開發(fā)過程自動化成為可能。

再者,由于醫(yī)學信息的特殊性,對醫(yī)學信息的匿名化處理在本體構(gòu)建過程中也是一個難點。2017年,Polsley S等人提出一種可識別被映射到本體論術(shù)語的受保護健康信息(protected health information, PHI)的方法,臨床專家使用數(shù)百份醫(yī)學文獻對該方法進行了評價,F1分數(shù)達98.8%,在后續(xù)處理中保留語義信息具有一定的前景。但該方法仍有較大的局限性,需要不斷地進行優(yōu)化。

2.3 醫(yī)學本體常用數(shù)據(jù)集

醫(yī)學本體較常用的數(shù)據(jù)集主要有以下幾種,見表1。

2.4 挑戰(zhàn)及未來研究方向

首先,由于醫(yī)學數(shù)據(jù)的多樣性,在設計醫(yī)學本體構(gòu)建系統(tǒng)時,無論是來自小的靜態(tài)文本集合的數(shù)據(jù),還是萬維網(wǎng)上的海量異構(gòu)數(shù)據(jù),都需要進行數(shù)據(jù)轉(zhuǎn)換。目前,針對此問題的文獻較少,有待后續(xù)研究的推進。

其次,醫(yī)學的臨床數(shù)據(jù)會不斷變化,如何根據(jù)患者的當前情況創(chuàng)建動態(tài)的最佳保護服務,為患者提供個性化的實時醫(yī)療護理也是醫(yī)學實體構(gòu)建過程中的一大問題。

3 醫(yī)學命名實體識別

3.1 命名實體識別定義

命名實體識別(named entity recognition,NER)又稱專名識別,指識別文本中具有特定意義的實體(主要包括人名、地名、機構(gòu)名、專有名詞等)。通常包括兩部分:一是識別實體邊界;二是確定實體類別(人名、地名、機構(gòu)名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),因此識別實體邊界相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,實體邊界的識別更加困難。

3.2 醫(yī)學命名實體識別難點及現(xiàn)有技術(shù)

與傳統(tǒng)的命名實體識別相比,醫(yī)學名詞實體一般比較長,長實體名詞常常包含多個名詞實體,造成醫(yī)學實體邊界識別的難度較大。此外,醫(yī)學名詞存在大量的同義詞替換、縮寫以及一詞多義現(xiàn)象,加大了確定實體類別的難度。

針對醫(yī)學實體中大量同義詞替換以及大量縮寫的問題,2020年Kato T等人提出了一種共享和學習標簽組件嵌入的方法,通過對英語和日語細粒度NER進行實驗,證明了該方法比標準序列標記模型性能更好,特別是在低頻標簽情況下。

為了解決醫(yī)學名詞實體較長、識別邊界困難的問題,2020年,Tan C Q等人提出了邊界感知的神經(jīng)網(wǎng)絡模型來預測實體的類別信息。該模型可以先定位出實體的位置, 然后在對應的位置區(qū)間內(nèi)進行實體類型的預測。在公開的嵌套NER數(shù)據(jù)集上,該模型取得了超越以往方法的效果,并在預測上取得了更快的速度。

另外,大多數(shù)NER系統(tǒng)只處理平面實體,忽略了內(nèi)部嵌套實體,導致無法捕獲底層文本中的細粒度語義信息。為了解決這個問題,2018年Ju M Z等人提出了一種新的神經(jīng)模型,通過動態(tài)疊加平面NER層來識別嵌套的實體。模型將長短時記憶(long short term memory,LSTM)層的輸出合并到當前的平面NER層中,為檢測到的實體構(gòu)建新的表示,并將它們提供給下一個平面NER層。模型動態(tài)地堆加平面NER層,直到?jīng)]有提取任何外部實體。該模型針對特定數(shù)據(jù)集(具有多種類別和嵌套的實體)具有較好的實驗效果。

對于醫(yī)學實體中常見的一詞多義現(xiàn)象,2019年P(guān)ham T H等人在細粒度NER任務中進行了多任務學習和語境化單詞表征的有效性研究,并研究了多任務序列標記的不同參數(shù)共享方案、神經(jīng)語言模型學習和不同單詞表示設置下的學習。最終得到的最佳模型不需要任何額外的人工操作來創(chuàng)建數(shù)據(jù)和設計特征,F1分數(shù)達到83.35%。Luo Y等人提出了一個增加了上下文表示層次的模型:句子級表示和文檔級表示。在句子級,考慮到單個句子中單詞的不同貢獻,通過標簽嵌入注意機制來增強從獨立的雙向長短時記憶(bidirectional long short term memory,BiLSTM)學習到的句子表征。在文檔級,采用鍵值存儲網(wǎng)絡記錄對上下文信息相似度敏感的單個單詞的文檔感知信息。在基準測試的實驗結(jié)果數(shù)據(jù)集(CoNLL-2003和Ontonnotes 5.0英語數(shù)據(jù)集,CoNLL-2002西班牙語數(shù)據(jù)集)上獲得了最先進的結(jié)果。

3.3 醫(yī)學命名實體識別常用數(shù)據(jù)集

醫(yī)學命名實體識別較常用的數(shù)據(jù)集主要有以下幾種,見表2。

3.4 挑戰(zhàn)及未來研究方向

(1)多類別實體在不同語境、不同詞性、不同類別下的應用

語言的博大精深、豐富多彩正是語言的魅力所在,但對于機器來說,豐富多彩的語言使語言的使用規(guī)則變得更加復雜,很難歸納和總結(jié)。將機器語言變得更加智能,理解多類別的實體在不同語境、不同詞性及不同類別下的應用是一個重要的研究方向。

(2)嵌套實體的研究

在醫(yī)學領(lǐng)域中,實體嵌套的現(xiàn)象非常常見,絕大部分醫(yī)學長實體中會存在實體嵌套,如何更有效地識別實體嵌套是醫(yī)學命名識別實體領(lǐng)域必須面對且具有重要意義的問題。

(3)實體識別與實體關(guān)系抽取的結(jié)合

輸入一個句子,通過實體識別和關(guān)系抽取聯(lián)合模型,直接得到有關(guān)系的實體三元組。這可以克服實體識別模塊的錯誤引起的錯誤傳播,重視兩個子任務之間存在的關(guān)系,使信息抽取任務完成得更加準確高效,但同時也可能會有更復雜的結(jié)構(gòu),因此如何用更簡單的結(jié)構(gòu)實現(xiàn)實體識別和實體關(guān)系抽取的結(jié)合將是之后的研究重點。

4 醫(yī)學實體關(guān)系抽取

4.1 實體關(guān)系抽取定義

實體關(guān)系抽取是指從一個句子中抽取出關(guān)系三元組,主要目的是從文本中識別實體并抽取實體之間的語義關(guān)系。實體關(guān)系抽取解決了原始文本中目標實體之間的關(guān)系分類問題,它也是構(gòu)建復雜知識庫系統(tǒng)的重要步驟,如文本摘要、自動問答、機器翻譯、搜索引擎、知識圖譜等。隨著近年來信息抽取的興起,實體關(guān)系抽取進一步得到廣泛的關(guān)注和深入的研究。

4.2 醫(yī)學實體關(guān)系抽取難點及現(xiàn)有技術(shù)

與一般的實體關(guān)系抽取相比,生物醫(yī)學領(lǐng)域語料庫的建設很復雜,且需要大量的人力、物力,對參與人員的專業(yè)背景要求高,因此使用僅有的醫(yī)學知識來自動構(gòu)建大規(guī)模的語料庫對于醫(yī)學實體關(guān)系的抽取十分重要。此外,醫(yī)學實體之間普遍存在重疊關(guān)系,這給關(guān)系抽取的準確性帶來較大的干擾。現(xiàn)有的醫(yī)學關(guān)系抽取方法大多需要復雜的特征工程,越來越多的學者采用深度學習方法進行關(guān)系的抽取,但大多采用的是流水線的方法,沒有充分利用實體信息,且容易導致錯誤的傳遞。最后,醫(yī)學關(guān)系的跨度較大,句子級的抽取不能滿足要求。

為了自動構(gòu)建大規(guī)模的語料庫,2019年Li Y等人提出了一種全新的輕量級神經(jīng)網(wǎng)絡框架來解決遠程監(jiān)督關(guān)系抽取問題,以彌補以往選擇的不足,使用《紐約時報》(New York Times,NYT)數(shù)據(jù)集進行實驗,結(jié)果表明該方法在AUC和Top-n精度指標方面都達到了較先進的性能。2020年He Z Q等人設計了一個新的狀態(tài)表示形式,它考慮了句子嵌入、關(guān)系嵌入以及所選的正向?qū)嵗那度?#xff0c;該方法解決了遠程監(jiān)督方法中的錯誤標簽問題,同時提升了詞袋水平的關(guān)系提取效果。Chen D Y等人提出了通過多代理強化學習模型來重新標記噪聲訓練數(shù)據(jù),并共同提取實體和關(guān)系的新方法。他們在兩個真實的數(shù)據(jù)集上對該方法進行了評估,結(jié)果證明,該方法可以顯著提高提取器的性能,并實現(xiàn)有效的學習。

針對醫(yī)學實體間普遍存在重疊關(guān)系這一問題,2019年Zeng D J等人重新研究了基于復制機制的關(guān)系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取實體和關(guān)系的多任務學習復制模型(copy mechanism for multi-task learning,CopyMTL)。該模型利用多任務的學習框架來識別多詞實體,通過提高實體識別精度來提升關(guān)系抽取的效果,從而達到了較理想的效果。2020年Nayak T等人提出了使用編碼器-解碼器體系結(jié)構(gòu)共同提取實體和關(guān)系的方法。該方法使用一種用于關(guān)系元組的表示方案,使解碼器能夠像機器翻譯模型那樣一次生成一個單詞,并且仍然可以找到句子中存在的所有元組,它們具有不同長度的完整實體名稱,并且具有重疊的實體。對NYT數(shù)據(jù)集進行的實驗表明,該方法明顯優(yōu)于所有以前的模型。

為了減少深度學習方法關(guān)系抽取中錯誤的傳遞,2019年Eberts M等人提出了一種混合模型,包括基于轉(zhuǎn)換器的編碼層、LSTM實體檢測模塊、基于強化學習的關(guān)系分類模塊。實驗結(jié)果表明,與基線方法相比,該混合模型在關(guān)系和實體提取方面表現(xiàn)更好。2019年Bansal T等人提出了一個新的模型——同時神經(jīng)實體-關(guān)系連接器(simultaneous neural entityrelation linker,SNERL)。首先使用自注意力機制來捕獲文本中每個實體提及的上下文表示;然后使用這些上下文表示來預測提及水平的實體分布和提及對水平的關(guān)系分布;最后針對每個提及對,將這些預測概率進行組合,并合并到文檔級別,以獲得預測關(guān)系三元組的最終概率。實驗結(jié)果表明,SNERL模型在CDT和CDR這兩個生物醫(yī)學數(shù)據(jù)集上的表現(xiàn)達到了最優(yōu)的效果,并且可以大大改善系統(tǒng)的整體召回率,同時避免了級聯(lián)錯誤。

針對醫(yī)學關(guān)系跨度大的問題,2020年Nan G S等人提出潛在結(jié)構(gòu)優(yōu)化(latent structure refinement,LSR)模型,以端到端的方式構(gòu)造一個文檔級圖譜來推理句間關(guān)系,通過迭代優(yōu)化策略,模型能夠動態(tài)構(gòu)建潛在結(jié)構(gòu),以改善整個文檔中的信息聚合。該模型在生物醫(yī)學領(lǐng)域的兩個文檔級關(guān)系抽取數(shù)據(jù)集上取得了較好的效果。

4.3 醫(yī)學實體關(guān)系抽取常用數(shù)據(jù)集

醫(yī)學實體關(guān)系抽取較常用的數(shù)據(jù)集主要有以下幾種,見表3。

4.4 挑戰(zhàn)及未來研究方向

(1)加強語料庫建設

相對于無監(jiān)督學習方法,有監(jiān)督學習方法有更好的準確性和穩(wěn)定性,而構(gòu)建良好的語料庫是有監(jiān)督學習方法得以開展的關(guān)鍵前提。

(2)利用聯(lián)合學習方法更好地提取文本中的關(guān)系

現(xiàn)有的聯(lián)合學習方法大多存在不同的問題,例如不能很好地識別醫(yī)學文本中的重疊嵌套關(guān)系,但是聯(lián)合學習方法可以充分利用實體與關(guān)系之間的交互信息,且普遍證明比流水線方法更有效,因此應該著力提升聯(lián)合學習方法中識別重疊嵌套關(guān)系的能力,使聯(lián)合學習方法更有效。

(3)實現(xiàn)跨句子或文檔級關(guān)系抽取

醫(yī)學文本中的關(guān)系往往不在一個句子中,而是跨句子的,因此關(guān)系抽取模型不應該僅僅滿足于句子級的抽取,應該進行更廣范圍的關(guān)系抽取。

(4)解決遠程監(jiān)督學習的問題,提升遠程監(jiān)督的效果

醫(yī)學領(lǐng)域語料庫較小,遠程監(jiān)督方可以有效地解決這個問題,但是遠程監(jiān)督方法中存在錯誤標簽等問題,會影響模型效果。未來可以著重解決遠程監(jiān)督中的錯誤標簽問題,使用遠程監(jiān)督方法可以省去人工標注數(shù)據(jù)的工作。

5 實體對齊

5.1 實體對齊定義

實體對齊是判斷多源異構(gòu)數(shù)據(jù)中的實體是否指向真實世界同一對象的過程。如果多個實體表征同一個對象,則在這些實體之間構(gòu)建對齊關(guān)系,同時對實體包含的信息進行融合和聚集。由于目前將實體對齊應用于醫(yī)學領(lǐng)域的研究文章較少,因此本節(jié)主要介紹實體對齊,而不是醫(yī)學實體對齊。

5.2 實體對齊難點及現(xiàn)有技術(shù)

(1)綜合利用知識圖譜的多種信息,如關(guān)系三元組、屬性三元組、摘要等

傳統(tǒng)的實體對齊任務直接將實體進行對齊,由于沒有考慮到與實體相關(guān)的背景信息(如關(guān)系三元組、屬性三元組、摘要等),實體對齊任務準確率不高,容易出現(xiàn)較多的噪聲和錯誤數(shù)據(jù),利用背景信息進行實體對齊是目前研究的一個難點。

2020年,E H H等人嘗試將關(guān)系和屬性三元組結(jié)合起來進行實體對齊。采用參數(shù)共享聯(lián)合方法和基于翻譯的知識嵌入方法將它們聯(lián)合嵌入。實驗結(jié)果表明,該方法對實體對齊任務有明顯的改進。Munne R F等人提出了一種基于嵌入的實體對齊方法。針對實體對齊任務,提出了一種匯總與屬性嵌入的聯(lián)合方法。當實體具有較少的屬性或關(guān)系結(jié)構(gòu),無法捕獲實體的有意義的表示時,實體摘要嵌入會很有用。他們在真實世界的數(shù)據(jù)集上進行了實驗,結(jié)果表明,所提方法顯著優(yōu)于當時最先進的實體對齊模型。

(2)多語言知識圖譜的實體對齊

隨著信息全球化的進一步發(fā)展,一種語言的知識圖譜已經(jīng)不能滿足信息的溝通與交流,因此多語言知識圖譜間的實體對齊方法是計算機研究的必然趨勢。

2020年,Chen M H等人提出了一種新的模型JEANS,在一個共享的嵌入方案中聯(lián)合表示多語種的知識圖譜和文本語料庫,并試圖通過文本附帶的監(jiān)督信號來改善實體對齊效果。在基準數(shù)據(jù)集上的實驗結(jié)果表明,JEANS在伴隨監(jiān)督的實體對齊方面有很好的改善,并且顯著地優(yōu)于只提供知識圖譜內(nèi)部信息的最新方法。KANG S Z等人利用本體提出了一種基于TransC的嵌入模型。該模型首先采用TransC和參數(shù)共享模型,將知識圖譜中的所有實體和關(guān)系映射到一個基于對齊實體集的共享低維語義空間,然后迭代地使用重新初始化和軟對齊策略來執(zhí)行實體對齊。實驗結(jié)果表明,與基準算法相比,該模型能有效地融合本體信息,取得了較好的效果。

(3)數(shù)據(jù)異構(gòu)實體對齊

醫(yī)學知識的表現(xiàn)方式復雜多樣,在數(shù)據(jù)異構(gòu)的知識圖譜之間進行實體對齊也是當前研究的一個難點。

針對不同類型實體的對齊,2020年, Zhu Q等人提出了一個集合圖譜網(wǎng)絡——多類型實體對齊的集合圖神經(jīng)網(wǎng)絡(collective graph neural network for multitype entity alignment,CG Mualign)。與以前的工作不同,CG Mualign聯(lián)合對齊不同類型的實體,集中利用鄰域信息并概括未標記的實體類型。在真實世界知識圖譜百萬計的實體實驗中,該方法的實體對齊效果超過了現(xiàn)有的方法。但是,該方法的運行效率沒有超過當前最先進的深度學習方法。

針對鄰域結(jié)構(gòu)的非同構(gòu)性,Sun Z Q等人提出了一種新的知識圖譜對齊網(wǎng)絡AliNet,旨在以端到端的方式減輕鄰域結(jié)構(gòu)的非同構(gòu)性。該方法采用一種注意機制來突出有用的遠距離鄰居,并減少噪聲,然后使用門控機制控制直接鄰域信息和遠程鄰域信息的聚合。他們進一步建議使用關(guān)系損失來重新定義實體表示,并對5個實體對準數(shù)據(jù)集進行了詳細的研究和分析,證明了AliNet的有效性。

針對知識圖譜之間的結(jié)構(gòu)異構(gòu)性,Wu Y T等人采用一種新的圖譜采樣策略來識別面向?qū)嶓w對齊的信息最豐富的鄰居,利用基于交叉圖譜注意力的匹配機制,聯(lián)合比較兩個實體的區(qū)分子圖,以實現(xiàn)穩(wěn)健的實體對齊。在3個實體比對數(shù)據(jù)集上進行的大量實驗表明,該方法可以在更困難的情況下很好地估計鄰域相似度,顯著優(yōu)于12種現(xiàn)有方法。

(4)大規(guī)模知識圖譜間的實體對齊

在信息化高速發(fā)展的今天,數(shù)據(jù)達到了空前規(guī)模,這對技術(shù)提出了更多的挑戰(zhàn),大規(guī)模知識圖譜間的實體對齊也成為研究難點和重點。

2019年,Zhang F J等人將兩個有上億級別節(jié)點的網(wǎng)絡——AMiner和微軟學術(shù)進行了對齊,這項研究綜合利用了LSTM、灰色神經(jīng)網(wǎng)絡(gray neural network,GNN)、哈希等技術(shù),能夠高效處理多種類型的節(jié)點以及不同類型的信息,并且使對齊效果達到了可以應用的級別(總體F1分數(shù)為96.81%)。

2020年,Flamino J等人提出了一個可解決大規(guī)模對齊問題的多步驟通道。在這個通道中,引入了具有魯棒時間屬性的可伸縮特征提取,并使用了聚類算法,以便在圖上找到相似節(jié)點的分組。這些特征和它們的集群被輸入一個通用的對齊階段,在數(shù)百萬個可能的匹配中準確地識別伙伴節(jié)點。實驗結(jié)果表明,該管道可以處理大數(shù)據(jù)集,在內(nèi)存限制下實現(xiàn)高效的運行。

5.3 實體對齊常用數(shù)據(jù)集

實體對齊較常用的數(shù)據(jù)集主要有以下幾種,見表4。

5.4 醫(yī)學實體對齊挑戰(zhàn)及未來研究方向

目前醫(yī)學實體對齊研究尚處于起步階段,根據(jù)醫(yī)學數(shù)據(jù)的特點,醫(yī)學實體對齊未來的研究方向主要包括以下方面。

● 醫(yī)學實體存在較多同義詞、縮略詞,導致實體對齊的精確性受到影響,但是醫(yī)療領(lǐng)域要求的精度非常高,使得在醫(yī)療領(lǐng)域?qū)崿F(xiàn)實體對齊這項工作的開展和進行非常艱難,這將是之后醫(yī)療領(lǐng)域需要重點解決的問題。

● 數(shù)據(jù)質(zhì)量良莠不齊,存在數(shù)據(jù)壁壘。由于不同醫(yī)療知識庫的構(gòu)建目的和方式不同,數(shù)據(jù)質(zhì)量不一,并且不同醫(yī)療機構(gòu)的數(shù)據(jù)一般不能互相開放,如何打破數(shù)據(jù)壁壘,解決可能存在的相似重復數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時間力度不一致等問題,是未來的一個重點研究方向。

● 醫(yī)療數(shù)據(jù)龐大復雜,標簽數(shù)據(jù)有限,且醫(yī)學數(shù)據(jù)精度要求高,需要領(lǐng)域?qū)<沂止?shù)據(jù)進行操作,這是一個耗費極大的工程。如何在較少的標簽數(shù)據(jù)中進行訓練,實現(xiàn)高效的實體對齊,也是后續(xù)研究要關(guān)注的問題。

6 醫(yī)學實體鏈接

6.1 實體鏈接定義

由于語言表達的多樣性、歧義性以及上下文關(guān)聯(lián),語言理解面臨巨大的挑戰(zhàn)。語言理解主要包括語法解析、語義解析和特定的知識表示或其中的某個片段。而在知識圖譜中主要涉及的技術(shù)即實體理解或?qū)嶓w鏈接技術(shù),將現(xiàn)實世界中的知識映射到現(xiàn)有知識圖譜中的實體,進而用現(xiàn)有知識圖譜進行表示,達到理解的目的。在實體鏈接任務中輸入的是實體的指代和上下文以及待鏈接的知識庫,輸出的是指代所對應的知識庫中的實體。

實體鏈接(或?qū)嶓w規(guī)范化、實體消歧)指將文本中的短語(提及范圍)映射到結(jié)構(gòu)化源(如知識庫)中的概念。提及范圍通常是一個詞或短語,描述一個單一的、連貫的概念。

6.2 醫(yī)學實體鏈接的難點及現(xiàn)有技術(shù)

(1)聯(lián)合在命名實體識別和實體鏈接中建模

在知識庫構(gòu)建中,實體識別是實體鏈接的前提,實體識別可為實體鏈接提供更多有效的信息。實體鏈接與實體識別聯(lián)合學習可減少工作量。實體識別與實體鏈接任務聯(lián)合解決既能提高命名實體識別的性能,也能提高實體鏈接的性能,是當前研究的重點和難點。

2017年,Lou Y X等人提出了一種基于轉(zhuǎn)換的聯(lián)合疾病實體識別與規(guī)范化模型,將輸出構(gòu)造過程轉(zhuǎn)化為一個漸進的狀態(tài)轉(zhuǎn)換過程,允許使用非局部特征。實驗表明,與其他方法分開執(zhí)行任務相比,聯(lián)合框架實現(xiàn)了更高的性能。與其他先進的方法相比,該方法更具優(yōu)勢。

2019年,Zhao S D等人提出了一個新的具有顯式反饋策略的深層神經(jīng)多任務學習框架,用于聯(lián)合實體識別和實體規(guī)范化建模。該方法利用多任務學習對兩個任務進行一般表示,在保持任務之間相互支持的同時,成功地將跨體系結(jié)構(gòu)的任務轉(zhuǎn)換為并行的多任務設置。實驗結(jié)果表明,在兩個公開的醫(yī)學文獻數(shù)據(jù)集上,該方法比當時最先進的方法表現(xiàn)得更好。

2020年,Luo Z H等人開發(fā)了pyMeSHSim軟件包,這是一個用于生物醫(yī)學文本挖掘的集成、輕量級和數(shù)據(jù)豐富的Python包。作為第一個一站式醫(yī)學主題詞(medical subject heading,MeSH)工具包,它集成了生物NER、規(guī)范化和比較功能。pyMeSHSim嵌入了一個自制的數(shù)據(jù)集,其中包含主標題(main heading,MH)、補充概念記錄(supplementary concept record,SCR)及其在MeSH中的關(guān)系。基于該數(shù)據(jù)集,pyMeSHSim實現(xiàn)了4種基于信息內(nèi)容的算法和一種基于圖譜的算法,可用于度量兩個網(wǎng)格術(shù)語之間的語義相似度。結(jié)果表明,使用pyMeSHSim識別的網(wǎng)絡術(shù)語和以前手工識別的網(wǎng)絡術(shù)語的語義相似度高達0.89~0.99。PyMeSHSim有望在生物信息學、計算生物學和生物醫(yī)學研究中作為一種強大的工具得到廣泛的應用。

(2)醫(yī)學實體語義模糊

基于研究和醫(yī)學文獻分析發(fā)現(xiàn),相同疾病名可能以多種不同的形式出現(xiàn),比如同義詞替換(如“腦中風”“腦卒中”)、疾病名稱前的簡短描述修飾語(如“大面積心臟病發(fā)作”),這些均會造成醫(yī)學實體語義的復雜多變。近年來針對這個問題的實體鏈接研究較多。

2017年,Cho H等人聯(lián)合解析同義詞和縮寫詞的領(lǐng)域特定詞典及基于神經(jīng)網(wǎng)絡算法組合的大量未標注數(shù)據(jù),該聯(lián)合方法的精確度顯著提高。

2018年,Gorrell G等人提出了一個新的系統(tǒng)Bio-YODIE。Bio-YODIE有兩個主要的組成部分,首先,資源準備步驟將運行時所需的UMLS和其他信息資源處理為高效的形式,盡可能多地提前完成工作,以盡量減少運行時的處理;其次,流程本身對文檔進行了注釋,這些文檔包括UMLS概念唯一標識符以及來自UMLS的其他相關(guān)信息?;谖谋竟こ痰耐ㄓ媒Y(jié)構(gòu)(general architecture for text engineering,GATE),YODIE最初是一個通用的域系統(tǒng),引用了DBpedia。BioYODIE是該系統(tǒng)的生物醫(yī)學版本,它繼承了一般領(lǐng)域的研究歷史。與MetaMapLite的不同之處在于, 消除歧義是Bio-YODIE中的優(yōu)先事項。Bio-YODIE已被集成到CogStack中,并在大規(guī)模臨床應用中得到廣泛應用。

2019年,Wright D提出了一個深度連貫模型NormCo,它考慮了實體提及的語義,以及單個文檔中提及的主題連貫性。NormCo在兩個疾病標準化語料庫上的預測質(zhì)量和效率方面優(yōu)于當時最先進的基線方法,并且至少在準確性和標記文檔的F1分數(shù)方面表現(xiàn)同樣出色。

2019年,Mondal I等人提出了一種基于候選知識庫條目與疾病描述相似度的排序方法,探討了域內(nèi)子詞級信息處理疾病規(guī)范化任務的能力。該方法利用由疾病描述m、陽性候選qp、陰性候選qni組成的三元組(qp, m, qni)進行候選排序,引入了一個穩(wěn)健的、可移植的候選生成方案,該方案不使用手工編制的規(guī)則。在標準基準NCBI疾病數(shù)據(jù)集上的實驗結(jié)果表明,該系統(tǒng)在很大程度上優(yōu)于先前的方法。

2020年,Zhu M等人提出了一種潛在類型實體鏈接模型LATTE,該模型通過對實體提及和實體的潛在細粒度類型信息進行建模來改進實體鏈接。與以前直接在實體提及和實體之間執(zhí)行實體鏈接的方法不同,LATTE在沒有直接監(jiān)督的情況下聯(lián)合執(zhí)行實體對齊和潛在的細粒度類型學習。大量的實驗結(jié)果表明,該模型比幾種先進的技術(shù)具有顯著的性能改進。

(3)公開醫(yī)學數(shù)據(jù)集較小

在醫(yī)學領(lǐng)域,對數(shù)據(jù)進行標簽標注是一項費時費力的大工程。因此目前所有的實體鏈接公開數(shù)據(jù)集都是小規(guī)模的,如何在小規(guī)模數(shù)據(jù)集上進行高質(zhì)量的實體鏈接是目前研究的一個難點。

2017年,Rajani N F等人提出使用精確聚焦的輔助特征來克服醫(yī)學領(lǐng)域的這些挑戰(zhàn),這些輔助特征可以從少量數(shù)據(jù)中形成分類邊界。該模型優(yōu)于多個基線水平,并在多個醫(yī)學數(shù)據(jù)集上更新了最優(yōu)結(jié)果。

6.3 醫(yī)學實體鏈接常用數(shù)據(jù)集

醫(yī)學實體鏈接較常用的數(shù)據(jù)集主要有以下幾種,見表5。

6.4 未來展望

(1)別名實體候選生成問題

在醫(yī)學領(lǐng)域中相同的語義往往可以有多種不同的叫法,醫(yī)學實體的多詞同義現(xiàn)象十分普遍,在判斷別名實體時很難將所有對應實體的候選實體全部找出,導致實體鏈接的準確率下降,因此解決別名實體候選生成是未來的研究重點。

(2)不完整數(shù)據(jù)集的實體鏈接

在實體鏈接中,實體、實體的類別信息、關(guān)系信息以及上下文信息對實體對齊非常重要,醫(yī)學數(shù)據(jù)經(jīng)常存在數(shù)據(jù)不完整的情況,使得實體鏈接效果不是很好,通過僅有的實體相關(guān)信息進行鏈接是醫(yī)學領(lǐng)域?qū)嶓w對齊面臨的又一大挑戰(zhàn)。

(3)基于多種語言的實體對齊

目前實體鏈接系統(tǒng)主要針對的是英文語料,中文或者其他語言的鏈接系統(tǒng)非常缺乏。中文以及其他語言與類似英語的語言不同,使得實體鏈接難度增加。對于中文和其他語言的實體鏈接系統(tǒng),也需要重點研究。

7 醫(yī)學知識圖譜存儲

7.1 知識圖譜存儲方式

現(xiàn)有知識圖譜數(shù)據(jù)的存儲方式主要分為兩種:基于關(guān)系模型的存儲方式和基于圖模型的存儲方式。

基于關(guān)系模型的知識圖譜存儲方式包括三元組表、水平表、屬性表、垂直劃分、六重索引和DB2RDF。

目前,基于圖數(shù)據(jù)庫的知識圖譜存儲方法是學術(shù)界研究的主流。圖數(shù)據(jù)庫的優(yōu)點在于其天然能表示知識圖譜結(jié)構(gòu),圖中的節(jié)點表示知識圖譜的對象,圖中的邊表示知識圖譜的對象關(guān)系。其最大的優(yōu)點是可以用來處理復雜的關(guān)系問題,提供完善的圖查詢語言,支持各種圖挖掘算法。采用圖數(shù)據(jù)庫存儲知識圖譜,能有效利用圖數(shù)據(jù)庫中以關(guān)聯(lián)數(shù)據(jù)為中心的數(shù)據(jù)表達、存儲和查詢?;趫D模型的存儲方式見表6。

知識圖譜的存儲方式應考慮其后續(xù)的使用效率,應根據(jù)自己的應用場景、數(shù)據(jù)情況來具體設計??蓞⒖急?選擇最適用的存儲方式。

基于醫(yī)學知識圖譜更側(cè)重于實體之間的關(guān)系(例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征)的特點,醫(yī)學知識圖譜的存儲基本采用圖數(shù)據(jù)庫,其中應用最廣泛的為Neo4j系統(tǒng)。曹明宇等人開發(fā)的基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)、吳嘉敏構(gòu)建的肺癌知識圖譜都將Neo4j作為知識圖譜的存儲系統(tǒng)。Deng W等人利用Neo4j圖形數(shù)據(jù)庫構(gòu)建醫(yī)學圖譜,包含醫(yī)院科室、疾病和癥狀之間的關(guān)系,并基于圖譜提供醫(yī)學指導。

張崇宇提出了基于知識圖譜的醫(yī)療自動問答系統(tǒng),考慮到知識庫問答應用中知識存儲與檢索的效率問題,采用三元組表示與圖數(shù)據(jù)庫存儲(Neo4j)以及JSON表示與鍵值對文檔型數(shù)據(jù)庫存儲(MongoDB)兩種形式的混合數(shù)據(jù)庫存儲的方式對構(gòu)建的臨床醫(yī)療知識圖譜進行表示和存儲。同時,通過對醫(yī)療實體進行歸一化處理,將標準化后的實體作為節(jié)點存儲到知識圖譜中。

7.2 醫(yī)學知識圖譜存儲的難點及現(xiàn)有技術(shù)(以圖數(shù)據(jù)庫為例)

(1)復雜關(guān)系的可視化

在醫(yī)學知識中,實體之間的關(guān)系經(jīng)常是錯綜復雜的,這使得將復雜關(guān)系能夠更好地可視化成為研究的一個難點。

當前,新的蛋白質(zhì)和基因序列的數(shù)量呈爆炸式增長,這使得對其生物學特性的有效表征和分析變得越來越復雜。2019年, Hu G M等人提出了一個基于網(wǎng)絡的圖數(shù)據(jù)庫工具SeQuery,通過整合序列結(jié)構(gòu)和功能信息,直觀地可視化蛋白質(zhì)組/基因組網(wǎng)絡。用GPCR2841數(shù)據(jù)集進行的序列測試表明,SeQuery能正確識別查詢到的100個蛋白質(zhì)序列中的99個。SeQuery非常適用于其他生物網(wǎng)絡,可以通過添加更多的生物數(shù)據(jù)庫來擴展SeQuery。

(2)用戶友好的查詢方式

知識圖譜的存儲是為了讓用戶更好地使用和查詢知識,讓用戶的查詢更簡單便捷一直是知識圖譜存儲的關(guān)鍵和難點。

結(jié)直腸癌(colorectal cancer,CRC)是常見的癌癥類型之一,它的發(fā)生與基因和細胞表觀遺傳機制的放松有關(guān)。2017年,Balaur I等人提出了圖數(shù)據(jù)庫EpiGeNet,用于存儲和查詢在結(jié)直腸癌發(fā)生的不同階段觀察到的分子事件(遺傳和表觀遺傳)之間的條件關(guān)系。EpiGeNet增強了探索與結(jié)直腸癌進展相關(guān)的研究方面的查詢能力,EpiGeNet框架提供了更好的管理和可視化數(shù)據(jù)的能力,特別是針對結(jié)直腸癌的發(fā)生和發(fā)展的分子事件。

基因組技術(shù)的最新進展使得從結(jié)核分枝桿菌分離物中產(chǎn)生大量成本效益高的“組學”數(shù)據(jù)成為可能,然后可以通過許多異構(gòu)的公開可用的生物數(shù)據(jù)庫共享這些數(shù)據(jù)。盡管碎片化管理很有用,但它對研究人員聯(lián)合查詢利用數(shù)據(jù)的能力產(chǎn)生了負面影響。2020年,Lose T等人提出了抗結(jié)核病NeoDB(一個整合的結(jié)核分枝桿菌經(jīng)濟學知識庫)?;贜eo4j,將標簽屬性圖模型綁定到合適的本體,從而創(chuàng)建抗結(jié)核病NeoDB??菇Y(jié)核病NeoDB使研究人員能夠通過鏈接著名的生物數(shù)據(jù)庫和發(fā)表文獻中的結(jié)核分枝桿菌變體數(shù)據(jù)來執(zhí)行復雜的聯(lián)合查詢。

(3)認證和加密形式的安全保障

隱私是醫(yī)院在發(fā)布涉及個人敏感信息的數(shù)據(jù)時應保留的一個重要因素。研究尋求在不侵犯個人信息保密性的情況下向公眾發(fā)布數(shù)據(jù)的解決方案。對數(shù)據(jù)進行處理,可以在維護基本信息的同時安全地發(fā)布數(shù)據(jù)。2020年,Saranya K等人提出了一種基于事務圖的自適應概率安全處理方法,用于醫(yī)療環(huán)境中的安全處理。該方法首先為每個用戶交互生成交互圖,并在此基礎(chǔ)上估計每個交互項的收斂性和偏差測度。基于這些值,該方法計算了一個概率矩陣,并在這個矩陣的基礎(chǔ)上生成本體。實驗結(jié)果表明,所提方法可以產(chǎn)生有效的安全處理和數(shù)據(jù)發(fā)布結(jié)果。

7.3 挑戰(zhàn)及未來研究方向

● 醫(yī)療數(shù)據(jù)類型種類繁多,現(xiàn)有圖數(shù)據(jù)庫系統(tǒng)支持過多數(shù)據(jù)組織的形式,但不清楚在一些情景中哪個是最好的。如何根據(jù)數(shù)據(jù)的不同選擇合適的系統(tǒng)和圖模型是未來一個很重要的問題。

● 醫(yī)療數(shù)據(jù)大多獨立分布在不同的醫(yī)療機構(gòu),數(shù)據(jù)的分布式存儲對醫(yī)療數(shù)據(jù)的存儲與分析至關(guān)重要。目前還沒有為圖數(shù)據(jù)庫開發(fā)拓撲感知或路徑感知的數(shù)據(jù)分布方案,特別是在最近提出的數(shù)據(jù)中心、高性能計算網(wǎng)絡拓撲和路徑體系結(jié)構(gòu)的背景下。因此,未來數(shù)據(jù)的分布式處理將是一個亟待解決的問題。

● 很少有研究使用不同類型的硬件結(jié)構(gòu)、加速器和硬件相關(guān)設計(如FPGA、與網(wǎng)絡接口卡相關(guān)的設計、硬件交互等),但這對于大規(guī)模醫(yī)療數(shù)據(jù)的存儲也是不可缺少的重要一環(huán)。

8 醫(yī)學知識圖譜應用

8.1 基于醫(yī)學知識圖譜的問答

醫(yī)學知識圖譜與問答系統(tǒng)的融合是目前極具挑戰(zhàn)性的研究方向,同時也是典型的應用場景。基于知識圖譜的醫(yī)療問答系統(tǒng)可以快速響應醫(yī)患用戶提出的問題,并給出準確、有效的解答。下面將從問答系統(tǒng)的實現(xiàn)方法、實際應用、關(guān)鍵挑戰(zhàn)3個方面進行闡述分析。

(1)實現(xiàn)方法

本文參考了近3年的研究進展,總結(jié)出醫(yī)療領(lǐng)域基于知識圖譜的問答系統(tǒng)主要有兩種實現(xiàn)方法:檢索式和生成式。其中,檢索式主要面向系統(tǒng)構(gòu)建的知識圖譜,生成式主要面向系統(tǒng)收集的問答庫數(shù)據(jù),表8列出了可用于構(gòu)建基于知識圖譜的醫(yī)療問答系統(tǒng)的數(shù)據(jù)來源。

檢索式方法就是將用戶的問句轉(zhuǎn)化為知識庫的查詢語句,再將查詢的結(jié)果轉(zhuǎn)化成自然語言返回給用戶,其一般流程由語義提取、問題匹配以及答案查詢3個部分組成,如圖2所示。

語義提取指從用戶提出的問句中提取出涉及的醫(yī)學實體、關(guān)系等語義信息,主要包括實體識別和關(guān)系抽取兩部分,可以采用詞典匹配、傳統(tǒng)機器學習、神經(jīng)網(wǎng)絡甚至平臺工具(如哈爾濱工業(yè)大學語言云平臺)等方法。參考文獻基于自定義詞典的Jieba分詞匹配獲得問句中的實體。

參考文獻中的DIK-QA系統(tǒng)使用BiLSTM-CRF神經(jīng)網(wǎng)絡模型抽取問句中的醫(yī)療實體,并在該模型中引入注意力機制,以提高實體識別的準確度。參考文獻借助哈爾濱工業(yè)大學語言云平臺的LTPParser接口進行句法分析,將結(jié)果與詞庫內(nèi)的實體進行比對,從而獲取比對成功的實體和關(guān)系。

問題匹配旨在識別問句的意圖,將問題進行分類,匹配預先制定的問題模板,一般采用匹配算法、TextCNN分類算法、SVM分類器等方法。Huang M X等人采用AC多模式匹配算法將問句匹配到不同的問題類型上。

參考文獻結(jié)合術(shù)語頻率-逆文檔頻率(term frequency–inverse document frequency,TFIDF)算法和word2vec詞向量生成句子向量,匹配最相似的問題模板,根據(jù)模板的語義及問題中的實體到知識圖譜中檢索答案。參考文獻均采用TextCNN分類算法實現(xiàn)問句類型的分類。謝剛等人利用支持向量機模型對問題進行主題分類和意圖識別。


圖2???檢索式方法的一般流程

答案查詢即根據(jù)問題模板將問題轉(zhuǎn)化成查詢語句,然后在知識圖譜中查詢問題的答案,主要通過查詢語句直接檢索答案或者通過推理規(guī)則得出答案。曹明宇等人使用Cypher語言在Neo4j圖形數(shù)據(jù)庫中查詢答案。參考文獻根據(jù)問題模板生成完整的SPARQL語言,并在甲狀腺知識圖譜內(nèi)進行查詢。Bo L等人使用Elasticsearch查詢語言,配合簡單的輔助推理算法,給用戶匹配相關(guān)癥狀,搜索可能的疾病,并推薦適當?shù)脑\斷方法。

而生成式方法則利用相關(guān)模型,根據(jù)輸入的問題生成答案或者直接檢索問答庫,其既需要醫(yī)療領(lǐng)域問答對語料數(shù)據(jù),也需要知識圖譜的實體及關(guān)系數(shù)據(jù),主要采用神經(jīng)網(wǎng)絡進行模型訓練。參考文獻使用基于LSTM的Seq2Seq模型構(gòu)建答案生成模型。參考文獻將記憶神經(jīng)網(wǎng)絡作為智能問答的算法模型,將知識庫的知識存儲在模型中,可在網(wǎng)絡中直接調(diào)用。

(2)實際應用

雖然我國醫(yī)療問答系統(tǒng)起步較晚,但國內(nèi)已有不少科技公司在市面上推出自主研發(fā)的醫(yī)療問答系統(tǒng)。如諾華制藥攜手騰訊合作推出的“護心小愛(AI)”,該平臺以微信小程序為載體,通過對話機器人為心衰患者提供針對常規(guī)醫(yī)療問題及日常生活問題的答疑解惑,以及科學的健康資訊。再如北京慧醫(yī)明智科技有限公司旗下的“慧醫(yī)大白”,其使用知識圖譜、語義理解和對話管理等技術(shù)手段,通過與用戶進行多輪問答,了解用戶的具體病癥,最終提供健康評估和健康行為建議。

而在問答系統(tǒng)起步較早的國外市場,最出名的面向醫(yī)學領(lǐng)域的智能問答系統(tǒng)是IBM的“沃森醫(yī)生(Dr.Watson)”,其學習了海量的醫(yī)療數(shù)據(jù),包括領(lǐng)域內(nèi)的頂尖文獻、診斷報告、電子病歷甚至醫(yī)學影像等醫(yī)療信息,利用自身龐大的知識庫為患者提出的醫(yī)學問題提供最佳的答案。

(3)關(guān)鍵挑戰(zhàn)

目前,國內(nèi)醫(yī)療問答系統(tǒng)的研究發(fā)展仍然存在許多的挑戰(zhàn),下面列舉了3個主要的關(guān)鍵挑戰(zhàn)。

一是針對非醫(yī)學專業(yè)人員的信息需求問題,由于他們的醫(yī)學專業(yè)知識不強,無法準確描述具體問題,在獲取答案時會存在一定程度的困難。

二是中文領(lǐng)域問答系統(tǒng)研究不足,主要體現(xiàn)在3個方面:①缺乏高質(zhì)量醫(yī)學領(lǐng)域的語料資源;②國內(nèi)醫(yī)學名詞術(shù)語標準化還存在整體規(guī)劃缺乏、權(quán)威術(shù)語標準數(shù)量不足以及更新不及時等問題;③構(gòu)建中文領(lǐng)域的醫(yī)學智能問答系統(tǒng)的工具和方法不成熟。

三是醫(yī)療問答準確性問題,提高問答系統(tǒng)的準確性仍然是研究的熱門方向。

8.2 醫(yī)療用藥推薦系統(tǒng)

(1)簡介

醫(yī)學上的用藥推薦與一般的推薦算法不同,一般的推薦算法是根據(jù)用戶的歷史記錄,利用數(shù)學算法推測出用戶可能的需求,已被廣泛應用于電商等互聯(lián)網(wǎng)場景。而用藥推薦則是基于循證醫(yī)學的原則,結(jié)合患者的具體患病情況以及醫(yī)學專業(yè)知識,推薦適合的用藥方案。一般的推薦算法的推薦結(jié)果對準確率的容忍度較高,即使部分推薦結(jié)果與用戶需求不符,也能夠接受。但用藥推薦在實際應用中要求達到百分之百的準確率,即藥品一定能夠起到作用,且不能產(chǎn)生不良反應或藥品間的相互作用。

知識圖譜能夠更加清晰準確地表達疾病與藥品之間的適應關(guān)系以及藥品間的相互作用,基于知識圖譜的用藥推薦與其他人工智能方法相比,能夠取得更好的效果。目前基于知識圖譜的用藥推薦研究進展與其他基線水平相比有所提升,但還無法達到實際應用的要求。

(2)方法

目前醫(yī)療用藥推薦系統(tǒng)使用的方法主要有以下兩種。

第一種是圖卷積網(wǎng)絡的方法,即在圖上使用卷積神經(jīng)網(wǎng)絡。2018年Shang J Y等人通過一個存儲模塊將藥物相互作用(drug-drug interaction,DDI)的知識圖譜集成為一個圖形卷積網(wǎng)絡,并將縱向患者向量建模作為查詢,該方法在所有有效性度量方面都優(yōu)于所有基線方法,并且在現(xiàn)有電子健康記錄(electronic health record,EHR)數(shù)據(jù)中實現(xiàn)了3.60%的DDI率降低(即推薦藥品之間有相互作用的概率降低3.6%)。2019年,Wang S S等人提出了一種針對藥物組合預測(medicine combination prediction,MCP)的圖卷積強化學習模型。其將MCP任務轉(zhuǎn)換為無序馬爾可夫決策過程(Markov decision process,MDP)問題,并設計了一個深度強化學習機制來學習藥物之間的相關(guān)性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分數(shù)標準上分別提高了3.74%、6.64%。2020年,Kwak H等人構(gòu)造了一個藥物疾病圖譜,使用圖神經(jīng)網(wǎng)絡學習節(jié)點表示,根據(jù)學習到的節(jié)點表示來預測藥物節(jié)點和疾病節(jié)點是否具有藥物不良反應(adverse drug reaction,ADR)關(guān)系。與其他算法相比,該模型的接受者工作特征曲線下的面積(area under curve of receiver operating characteristic,AUROC)和精度召回率曲線下的面積(area under curve of precision recall curve,AUPRC)性能分別提高到0.795和0.775。

第二種是知識圖譜嵌入的方法,包括將實體和關(guān)系轉(zhuǎn)化為連續(xù)的向量空間,從而簡化操作,同時保留知識圖譜的原有的結(jié)構(gòu)。2017年Wang M等人構(gòu)建了患者疾病-藥品圖譜,將其嵌入低維空間后,進行用藥推薦。首先構(gòu)建疾病和藥品圖譜,通過EHR分別連接疾病和藥品圖譜,形成兩個二分圖,通過患者數(shù)據(jù)將兩個二分圖連接起來,并構(gòu)建了一個高質(zhì)量的異構(gòu)圖,該方法的預測準確度(即Jaccard系數(shù))、藥物相互作用發(fā)生率、冷啟動(即沒有患者數(shù)據(jù)時的使用)、臨床專家評分均高于基線水平。2019年Wang X Y等人構(gòu)建了疾病-藥品圖譜,將其嵌入低維空間后,進行用藥推薦,并提出一種基于知識圖譜嵌入增強主題模型(knowledge graph enhanced topic model,KGETM)的中藥推薦模型。在中藥基準數(shù)據(jù)集上的實驗結(jié)果表明,該方法優(yōu)于當時最新的方法,中藥知識圖嵌入在中藥推薦中有很好的應用前景。

(3)研究方向

醫(yī)學知識圖譜在用藥推薦系統(tǒng)應用領(lǐng)域的未來研究方向主要有以下幾方面。

① 構(gòu)建完整的醫(yī)學知識圖譜。人類對疾病與藥品的認識是動態(tài)變化的,結(jié)合疾病、癥狀、藥品、藥品間的相互作用及患者的臨床數(shù)據(jù)、患病的時間序列信息等,構(gòu)建一個完整的醫(yī)學動態(tài)知識圖譜,確保知識的完整性、準確性和時效性。

② 知識圖譜嵌入學習是將實體和關(guān)系映射到低維連續(xù)向量空間的表示方法,在保留知識圖譜結(jié)構(gòu)信息的同時,還能夠改善數(shù)據(jù)稀疏問題,提高計算效率,因此在進行后續(xù)用藥推薦任務之前,先對知識圖譜進行表示學習是很有必要的。

③ 考慮到構(gòu)建動態(tài)醫(yī)學知識圖譜的必要性,而目前大多數(shù)知識嵌入表示研究建立在靜態(tài)的知識圖譜上,如何對動態(tài)知識圖譜進行有效的知識表示是一個待解決的問題。將圖時空網(wǎng)絡與動態(tài)知識圖譜相結(jié)合的知識嵌入表示用于用藥推薦是一個頗具價值的研究方向。

9 醫(yī)學知識圖譜未來展望

構(gòu)建醫(yī)療領(lǐng)域的知識圖譜,可以從海量數(shù)據(jù)中提煉出醫(yī)療知識,并合理高效地對其進行管理、共享及應用,這對當今的醫(yī)療行業(yè)具有重要意義,也是很多企業(yè)和研究機構(gòu)的研究熱點。本文對醫(yī)學知識圖譜構(gòu)建過程中的研究熱點、現(xiàn)有技術(shù)、挑戰(zhàn)及未來發(fā)展方向進行了綜述,具體見表9。醫(yī)學知識圖譜將知識圖譜與醫(yī)學知識結(jié)合,定會推進醫(yī)學數(shù)據(jù)的自動化與智能化處理,為醫(yī)療行業(yè)帶來新的發(fā)展契機。醫(yī)學知識圖譜未來總的發(fā)展方向應該體現(xiàn)以下幾個方面。

(1)多語言醫(yī)學知識圖譜

國內(nèi)外醫(yī)學知識的相互融合促進更有利于醫(yī)學領(lǐng)域的發(fā)展,而實現(xiàn)不同國界醫(yī)學知識的相互溝通和交流,多語言醫(yī)學知識圖譜技術(shù)是關(guān)鍵,這會成為未來醫(yī)學知識圖譜發(fā)展的一個重要趨勢。

(2)大規(guī)模多模態(tài)多源醫(yī)學知識庫

受到多方面因素的影響,現(xiàn)有的醫(yī)學知識圖譜規(guī)模大多有局限,表現(xiàn)方式也較為單一,大多以文本和圖數(shù)據(jù)的形式呈現(xiàn),但聲音、影像、圖片等也蘊含大量的醫(yī)學信息,在醫(yī)學臨床中也存在大量的醫(yī)療影像、X光等多模態(tài)信息,醫(yī)學知識的來源也可以來自書本、文獻、網(wǎng)頁、視頻等。因此未來醫(yī)學知識圖譜研究的一個熱點是構(gòu)建大規(guī)模多模態(tài)多源的醫(yī)學知識庫。

(3)基于時空特性的知識演化和多粒度知識推理

研究基于深度學習與邏輯推理相互約束的大規(guī)模多粒度知識推理模型與方法,研制基于本體、規(guī)則與深度學習相結(jié)合的大規(guī)模知識推理系統(tǒng),使其能夠?qū)Π?0億級RDF三元組的知識庫和萬級規(guī)則進行推理,平均響應時間在秒級,并具有良好的可伸縮性。在此基礎(chǔ)上,研究基于時空特性的知識演化模型與預測方法,研制知識演化系統(tǒng),使其能夠?qū)崟r地對知識庫進行更新,平均響應時間為秒級。

作者簡介

譚玲(1993-),女,北京郵電大學博士生,主要研究方向為知識圖譜及自然語言處理、大數(shù)據(jù)及人工智能。

鄂海紅(1982-),女,博士,北京郵電大學副教授,主要研究方向為大數(shù)據(jù)及人工智能、知識圖譜及自然語言處理、大數(shù)據(jù)中臺、分布式微服務架構(gòu)。

匡澤民(1979-),男,博士,首都醫(yī)科大學附屬北京安貞醫(yī)院高血壓科主任醫(yī)師,主要研究方向為高血壓精準診斷與治療、心血管臨床藥理、醫(yī)學人工智能。

宋美娜(1974-),女,博士,北京郵電大學教授,主要研究方向為大數(shù)據(jù)、聯(lián)邦學習及醫(yī)療健康、金融科技應用、大數(shù)據(jù)、聯(lián)邦學習及醫(yī)療健康。

劉毓(1998-),女,北京郵電大學碩士生,主要研究方向為知識圖譜。

陳正宇(1997-),男,北京郵電大學碩士生,主要研究方向為計算機視覺、知識圖譜。

謝曉璇(1997-),女,北京郵電大學碩士生,主要研究方向為知識圖譜。

李峻迪(1997-),男,北京郵電大學碩士生,主要研究方向為智能對話系統(tǒng)和Java開發(fā)。

范家偉(1998-),男,北京郵電大學碩士生,主要研究方向為深度學習。

王晴川(1997-),女,北京郵電大學碩士生,主要研究方向為自然語言處理。

康霄陽(1997-),男,北京郵電大學碩士生,主要研究方向為機器學習、計算機視覺。

聯(lián)系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉(zhuǎn)載、合作:010-81055307

大數(shù)據(jù)期刊

《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術(shù)指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領(lǐng)域高質(zhì)量科技期刊分級目錄、計算領(lǐng)域高質(zhì)量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學”學科最受歡迎期刊。

關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容

總結(jié)

以上是生活随笔為你收集整理的虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。