當前位置：首頁 >

虚拟专题：知识图谱 | 医学知识图谱构建关键技术及研究进展

發布時間：2025/3/15 40 豆豆

生活随笔收集整理的這篇文章主要介紹了虚拟专题：知识图谱 | 医学知识图谱构建关键技术及研究进展小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源：《大數據》

醫學知識圖譜構建關鍵技術及研究進展

譚玲¹,?鄂海紅¹,?匡澤民²,?宋美娜¹,?劉毓¹,?陳正宇¹,?謝曉璇¹,?李峻迪¹,?范家偉¹,?王晴川¹,?康霄陽¹

1?北京郵電大學

2?首都醫科大學附屬北京安貞醫院

?摘要：隨著互聯網技術的不斷迭代更新，對海量數據的語義理解變得越來越重要。知識圖譜是一種揭示實體之間關系的語義網絡，醫學是知識圖譜應用較廣的垂直領域之一，醫學知識圖譜的構建也是目前國內外人工智能領域研究的熱點。從醫學知識圖譜本體構建出發，依次對命名實體識別、實體關系抽取、實體對齊、實體鏈接、知識圖譜存儲、知識圖譜應用進行綜述，詳細介紹了近年來醫學知識圖譜構建過程中涉及的難點、現有技術、挑戰及未來研究方向，并介紹了醫學知識圖譜應用，最后對未來發展方向進行了展望。

關鍵詞：?醫學知識圖譜?;?構建?;?關鍵技術?;?研究進展

論文引用格式：

譚玲, 鄂海紅, 匡澤民, 等. 醫學知識圖譜構建關鍵技術及研究進展[J]. 大數據, 2021, 7(4): 80-104.

TAN L,E H H, KUANG Z M, et al . Key technologies and research progress of medical knowledge graph construction[J]. Big Data Research, 2021, 7(4): 80-104.

1 引言

人工智能的發展已經進入快車道，作為新一輪科技革命和產業變革的重要驅動力量，人工智能技術正在深入各行各業，悄無聲息地改變著人們日常生活的方方面面。知識圖譜是由谷歌（Google）公司在2012年提出的一個概念，本質上是語義網的知識庫。知識圖譜由節點和邊組成，節點表示實體，邊表示實體與實體之間的關系，這是最直觀、最易于理解的知識表示和實現知識推理的框架，奠定了第三代人工智能研究的基礎。

目前，醫學是知識圖譜應用較廣的垂直領域之一，也是目前國內外人工智能領域研究的熱點。醫學知識圖譜在臨床診斷、治療、預后等方面均可發揮較大的作用。高效地將知識圖譜應用于醫學領域將給人類的醫療衛生帶來革命性的變化。由于醫學領域數據的特殊性，醫學知識圖譜的構建也面臨不少機遇與挑戰。

本文對醫學知識圖譜構建的關鍵技術及應用進行了全面的梳理，對各類公共數據集、處理醫學問題的特異性難點及現有解決辦法進行了綜述。通過閱讀本文，可以了解醫學知識圖譜的發展現狀、未來發展方向以及面臨的挑戰，便于醫學知識圖譜研究者參照對比，加快醫學知識圖譜領域的研究及臨床落地應用。

本文主要按照醫學知識圖譜構建的流程來闡述，主要框架如圖1所示。

圖1???醫學知識圖譜構建框架

2 醫學本體構建

網絡上文本數據的爆炸式增長，以及對本體需求的增加，促進了語義網絡的發展，使得基于文本的本體自動構建成為一個非常有前途的研究領域。文本本體學習是一種以機器可讀形式（半）自動地從文本中提取和表示知識的過程。本體被認為是在語義網絡上以更有意義的方式表示知識的主要基石之一。

2.1 本體構建定義及任務

萬維網聯盟（World Wide Web Consortium，W3C）將本體論定義為用于描述和表示知識領域的術語。本體是一個數據模型，它表示一組概念以及一個域中這些概念之間的關系。

本體構建可以定義為從頭創建本體或重用現有本體以豐富或填充現有本體的迭代過程。構建本體的過程包括以下6個任務：

● 指定一個域以創建定義良好的術語和概念；

● 識別域中的關鍵術語、概念及其關系；

● 建立或推斷描述域結構屬性的規則和公理；

● 使用支持本體的表示語言（如資源描述框架（resource description framework，RDF）、資源描述框架模式（resource description framework schema，RDFS）或網絡本體語言（Web ontology language，OWL））對構建的本體進行編碼（表示）；

● 將構建的本體與現有本體結合（如果現有本體可用）；

● 通過使用通用和特定的評估度量來評估構建的本體。

2.2 醫學本體構建難點及現有技術

隨著對許多醫學本體構建研究的深入，目前醫學本體庫的構建主要存在以下難點。

首先應該盡可能減少在本體構建過程中的人為干預。目前實現本體構建過程的完全自動化是不現實的，怎樣減少人為干預是目前醫學本體構建的一個難點和熱點。2018年，Mazen A等人提出了一種新的本體自動生成框架，即鏈接開放數據項目授權的生物醫學本體自動生成（linked open data approach for automatic biomedical ontology generation，LOD-ABOG）方法。與現有框架相比，參考文獻[3]的評估結果顯示，大多數本體生成任務的結果有所改善。該參考文獻提出的LOD-ABOG框架表明，現有的LOD源和技術是一個很有前途的解決方案，可以在更大程度上實現生物醫學本體生成和關系提取過程的自動化。另外，與現有的框架在本體開發過程中需要領域專家的參與不同，該參考文獻提出的方法只要求領域專家在本體構建周期結束時參與到本體的改進中。

2019年，Lytvyn V等人提出了從自然文本中提取知識的方法和算法（包括一個基于本體引入的概念、關系、謂詞和規則的多層次過程），建立了一種基于本體的本體開發方法，該方法利用現有本體對文本文檔進行分析，構建了命名和本體術語體系。這使得本體開發過程自動化成為可能。

再者，由于醫學信息的特殊性，對醫學信息的匿名化處理在本體構建過程中也是一個難點。2017年，Polsley S等人提出一種可識別被映射到本體論術語的受保護健康信息（protected health information， PHI）的方法，臨床專家使用數百份醫學文獻對該方法進行了評價，F₁分數達98.8%，在后續處理中保留語義信息具有一定的前景。但該方法仍有較大的局限性，需要不斷地進行優化。

2.3 醫學本體常用數據集

醫學本體較常用的數據集主要有以下幾種，見表1。

2.4 挑戰及未來研究方向

首先，由于醫學數據的多樣性，在設計醫學本體構建系統時，無論是來自小的靜態文本集合的數據，還是萬維網上的海量異構數據，都需要進行數據轉換。目前，針對此問題的文獻較少，有待后續研究的推進。

其次，醫學的臨床數據會不斷變化，如何根據患者的當前情況創建動態的最佳保護服務，為患者提供個性化的實時醫療護理也是醫學實體構建過程中的一大問題。

3 醫學命名實體識別

3.1 命名實體識別定義

命名實體識別（named entity recognition，NER）又稱專名識別，指識別文本中具有特定意義的實體（主要包括人名、地名、機構名、專有名詞等）。通常包括兩部分：一是識別實體邊界；二是確定實體類別（人名、地名、機構名或其他）。英語中的命名實體具有比較明顯的形式標志（即實體中的每個詞的第一個字母要大寫），因此識別實體邊界相對容易，任務的重點是確定實體的類別。和英語相比，漢語命名實體識別任務更加復雜，實體邊界的識別更加困難。

3.2 醫學命名實體識別難點及現有技術

與傳統的命名實體識別相比，醫學名詞實體一般比較長，長實體名詞常常包含多個名詞實體，造成醫學實體邊界識別的難度較大。此外，醫學名詞存在大量的同義詞替換、縮寫以及一詞多義現象，加大了確定實體類別的難度。

針對醫學實體中大量同義詞替換以及大量縮寫的問題，2020年Kato T等人提出了一種共享和學習標簽組件嵌入的方法，通過對英語和日語細粒度NER進行實驗，證明了該方法比標準序列標記模型性能更好，特別是在低頻標簽情況下。

為了解決醫學名詞實體較長、識別邊界困難的問題，2020年，Tan C Q等人提出了邊界感知的神經網絡模型來預測實體的類別信息。該模型可以先定位出實體的位置, 然后在對應的位置區間內進行實體類型的預測。在公開的嵌套NER數據集上，該模型取得了超越以往方法的效果，并在預測上取得了更快的速度。

另外，大多數NER系統只處理平面實體，忽略了內部嵌套實體，導致無法捕獲底層文本中的細粒度語義信息。為了解決這個問題，2018年Ju M Z等人提出了一種新的神經模型，通過動態疊加平面NER層來識別嵌套的實體。模型將長短時記憶（long short term memory，LSTM）層的輸出合并到當前的平面NER層中，為檢測到的實體構建新的表示，并將它們提供給下一個平面NER層。模型動態地堆加平面NER層，直到沒有提取任何外部實體。該模型針對特定數據集（具有多種類別和嵌套的實體）具有較好的實驗效果。

對于醫學實體中常見的一詞多義現象，2019年Pham T H等人在細粒度NER任務中進行了多任務學習和語境化單詞表征的有效性研究，并研究了多任務序列標記的不同參數共享方案、神經語言模型學習和不同單詞表示設置下的學習。最終得到的最佳模型不需要任何額外的人工操作來創建數據和設計特征，F₁分數達到83.35%。Luo Y等人提出了一個增加了上下文表示層次的模型：句子級表示和文檔級表示。在句子級，考慮到單個句子中單詞的不同貢獻，通過標簽嵌入注意機制來增強從獨立的雙向長短時記憶（bidirectional long short term memory，BiLSTM）學習到的句子表征。在文檔級，采用鍵值存儲網絡記錄對上下文信息相似度敏感的單個單詞的文檔感知信息。在基準測試的實驗結果數據集（CoNLL-2003和Ontonnotes 5.0英語數據集，CoNLL-2002西班牙語數據集）上獲得了最先進的結果。

3.3 醫學命名實體識別常用數據集

醫學命名實體識別較常用的數據集主要有以下幾種，見表2。

3.4 挑戰及未來研究方向

（1）多類別實體在不同語境、不同詞性、不同類別下的應用

語言的博大精深、豐富多彩正是語言的魅力所在，但對于機器來說，豐富多彩的語言使語言的使用規則變得更加復雜，很難歸納和總結。將機器語言變得更加智能，理解多類別的實體在不同語境、不同詞性及不同類別下的應用是一個重要的研究方向。

（2）嵌套實體的研究

在醫學領域中，實體嵌套的現象非常常見，絕大部分醫學長實體中會存在實體嵌套，如何更有效地識別實體嵌套是醫學命名識別實體領域必須面對且具有重要意義的問題。

（3）實體識別與實體關系抽取的結合

輸入一個句子，通過實體識別和關系抽取聯合模型，直接得到有關系的實體三元組。這可以克服實體識別模塊的錯誤引起的錯誤傳播，重視兩個子任務之間存在的關系，使信息抽取任務完成得更加準確高效，但同時也可能會有更復雜的結構，因此如何用更簡單的結構實現實體識別和實體關系抽取的結合將是之后的研究重點。

4 醫學實體關系抽取

4.1 實體關系抽取定義

實體關系抽取是指從一個句子中抽取出關系三元組，主要目的是從文本中識別實體并抽取實體之間的語義關系。實體關系抽取解決了原始文本中目標實體之間的關系分類問題，它也是構建復雜知識庫系統的重要步驟，如文本摘要、自動問答、機器翻譯、搜索引擎、知識圖譜等。隨著近年來信息抽取的興起，實體關系抽取進一步得到廣泛的關注和深入的研究。

4.2 醫學實體關系抽取難點及現有技術

與一般的實體關系抽取相比，生物醫學領域語料庫的建設很復雜，且需要大量的人力、物力，對參與人員的專業背景要求高，因此使用僅有的醫學知識來自動構建大規模的語料庫對于醫學實體關系的抽取十分重要。此外，醫學實體之間普遍存在重疊關系，這給關系抽取的準確性帶來較大的干擾。現有的醫學關系抽取方法大多需要復雜的特征工程，越來越多的學者采用深度學習方法進行關系的抽取，但大多采用的是流水線的方法，沒有充分利用實體信息，且容易導致錯誤的傳遞。最后，醫學關系的跨度較大，句子級的抽取不能滿足要求。

為了自動構建大規模的語料庫，2019年Li Y等人提出了一種全新的輕量級神經網絡框架來解決遠程監督關系抽取問題，以彌補以往選擇的不足，使用《紐約時報》（New York Times，NYT）數據集進行實驗，結果表明該方法在AUC和Top-n精度指標方面都達到了較先進的性能。2020年He Z Q等人設計了一個新的狀態表示形式，它考慮了句子嵌入、關系嵌入以及所選的正向實例的嵌入，該方法解決了遠程監督方法中的錯誤標簽問題，同時提升了詞袋水平的關系提取效果。Chen D Y等人提出了通過多代理強化學習模型來重新標記噪聲訓練數據，并共同提取實體和關系的新方法。他們在兩個真實的數據集上對該方法進行了評估，結果證明，該方法可以顯著提高提取器的性能，并實現有效的學習。

針對醫學實體間普遍存在重疊關系這一問題，2019年Zeng D J等人重新研究了基于復制機制的關系抽取模型，提出了使用序列到序列（Seq2Seq）方法共同提取實體和關系的多任務學習復制模型（copy mechanism for multi-task learning，CopyMTL）。該模型利用多任務的學習框架來識別多詞實體，通過提高實體識別精度來提升關系抽取的效果，從而達到了較理想的效果。2020年Nayak T等人提出了使用編碼器-解碼器體系結構共同提取實體和關系的方法。該方法使用一種用于關系元組的表示方案，使解碼器能夠像機器翻譯模型那樣一次生成一個單詞，并且仍然可以找到句子中存在的所有元組，它們具有不同長度的完整實體名稱，并且具有重疊的實體。對NYT數據集進行的實驗表明，該方法明顯優于所有以前的模型。

為了減少深度學習方法關系抽取中錯誤的傳遞，2019年Eberts M等人提出了一種混合模型，包括基于轉換器的編碼層、LSTM實體檢測模塊、基于強化學習的關系分類模塊。實驗結果表明，與基線方法相比，該混合模型在關系和實體提取方面表現更好。2019年Bansal T等人提出了一個新的模型——同時神經實體-關系連接器（simultaneous neural entityrelation linker，SNERL）。首先使用自注意力機制來捕獲文本中每個實體提及的上下文表示；然后使用這些上下文表示來預測提及水平的實體分布和提及對水平的關系分布；最后針對每個提及對，將這些預測概率進行組合，并合并到文檔級別，以獲得預測關系三元組的最終概率。實驗結果表明，SNERL模型在CDT和CDR這兩個生物醫學數據集上的表現達到了最優的效果，并且可以大大改善系統的整體召回率，同時避免了級聯錯誤。

針對醫學關系跨度大的問題，2020年Nan G S等人提出潛在結構優化（latent structure refinement，LSR）模型，以端到端的方式構造一個文檔級圖譜來推理句間關系，通過迭代優化策略，模型能夠動態構建潛在結構，以改善整個文檔中的信息聚合。該模型在生物醫學領域的兩個文檔級關系抽取數據集上取得了較好的效果。

4.3 醫學實體關系抽取常用數據集

醫學實體關系抽取較常用的數據集主要有以下幾種，見表3。

4.4 挑戰及未來研究方向

（1）加強語料庫建設

相對于無監督學習方法，有監督學習方法有更好的準確性和穩定性，而構建良好的語料庫是有監督學習方法得以開展的關鍵前提。

（2）利用聯合學習方法更好地提取文本中的關系

現有的聯合學習方法大多存在不同的問題，例如不能很好地識別醫學文本中的重疊嵌套關系，但是聯合學習方法可以充分利用實體與關系之間的交互信息，且普遍證明比流水線方法更有效，因此應該著力提升聯合學習方法中識別重疊嵌套關系的能力，使聯合學習方法更有效。

（3）實現跨句子或文檔級關系抽取

醫學文本中的關系往往不在一個句子中，而是跨句子的，因此關系抽取模型不應該僅僅滿足于句子級的抽取，應該進行更廣范圍的關系抽取。

（4）解決遠程監督學習的問題，提升遠程監督的效果

醫學領域語料庫較小，遠程監督方可以有效地解決這個問題，但是遠程監督方法中存在錯誤標簽等問題，會影響模型效果。未來可以著重解決遠程監督中的錯誤標簽問題，使用遠程監督方法可以省去人工標注數據的工作。

5 實體對齊

5.1 實體對齊定義

實體對齊是判斷多源異構數據中的實體是否指向真實世界同一對象的過程。如果多個實體表征同一個對象，則在這些實體之間構建對齊關系，同時對實體包含的信息進行融合和聚集。由于目前將實體對齊應用于醫學領域的研究文章較少，因此本節主要介紹實體對齊，而不是醫學實體對齊。

5.2 實體對齊難點及現有技術

（1）綜合利用知識圖譜的多種信息，如關系三元組、屬性三元組、摘要等

傳統的實體對齊任務直接將實體進行對齊，由于沒有考慮到與實體相關的背景信息（如關系三元組、屬性三元組、摘要等），實體對齊任務準確率不高，容易出現較多的噪聲和錯誤數據，利用背景信息進行實體對齊是目前研究的一個難點。

2020年，E H H等人嘗試將關系和屬性三元組結合起來進行實體對齊。采用參數共享聯合方法和基于翻譯的知識嵌入方法將它們聯合嵌入。實驗結果表明，該方法對實體對齊任務有明顯的改進。Munne R F等人提出了一種基于嵌入的實體對齊方法。針對實體對齊任務，提出了一種匯總與屬性嵌入的聯合方法。當實體具有較少的屬性或關系結構，無法捕獲實體的有意義的表示時，實體摘要嵌入會很有用。他們在真實世界的數據集上進行了實驗，結果表明，所提方法顯著優于當時最先進的實體對齊模型。

（2）多語言知識圖譜的實體對齊

隨著信息全球化的進一步發展，一種語言的知識圖譜已經不能滿足信息的溝通與交流，因此多語言知識圖譜間的實體對齊方法是計算機研究的必然趨勢。

2020年，Chen M H等人提出了一種新的模型JEANS，在一個共享的嵌入方案中聯合表示多語種的知識圖譜和文本語料庫，并試圖通過文本附帶的監督信號來改善實體對齊效果。在基準數據集上的實驗結果表明，JEANS在伴隨監督的實體對齊方面有很好的改善，并且顯著地優于只提供知識圖譜內部信息的最新方法。KANG S Z等人利用本體提出了一種基于TransC的嵌入模型。該模型首先采用TransC和參數共享模型，將知識圖譜中的所有實體和關系映射到一個基于對齊實體集的共享低維語義空間，然后迭代地使用重新初始化和軟對齊策略來執行實體對齊。實驗結果表明，與基準算法相比，該模型能有效地融合本體信息，取得了較好的效果。

（3）數據異構實體對齊

醫學知識的表現方式復雜多樣，在數據異構的知識圖譜之間進行實體對齊也是當前研究的一個難點。

針對不同類型實體的對齊，2020年， Zhu Q等人提出了一個集合圖譜網絡——多類型實體對齊的集合圖神經網絡（collective graph neural network for multitype entity alignment，CG Mualign）。與以前的工作不同，CG Mualign聯合對齊不同類型的實體，集中利用鄰域信息并概括未標記的實體類型。在真實世界知識圖譜百萬計的實體實驗中，該方法的實體對齊效果超過了現有的方法。但是，該方法的運行效率沒有超過當前最先進的深度學習方法。

針對鄰域結構的非同構性，Sun Z Q等人提出了一種新的知識圖譜對齊網絡AliNet，旨在以端到端的方式減輕鄰域結構的非同構性。該方法采用一種注意機制來突出有用的遠距離鄰居，并減少噪聲，然后使用門控機制控制直接鄰域信息和遠程鄰域信息的聚合。他們進一步建議使用關系損失來重新定義實體表示，并對5個實體對準數據集進行了詳細的研究和分析，證明了AliNet的有效性。

針對知識圖譜之間的結構異構性，Wu Y T等人采用一種新的圖譜采樣策略來識別面向實體對齊的信息最豐富的鄰居，利用基于交叉圖譜注意力的匹配機制，聯合比較兩個實體的區分子圖，以實現穩健的實體對齊。在3個實體比對數據集上進行的大量實驗表明，該方法可以在更困難的情況下很好地估計鄰域相似度，顯著優于12種現有方法。

（4）大規模知識圖譜間的實體對齊

在信息化高速發展的今天，數據達到了空前規模，這對技術提出了更多的挑戰，大規模知識圖譜間的實體對齊也成為研究難點和重點。

2019年，Zhang F J等人將兩個有上億級別節點的網絡——AMiner和微軟學術進行了對齊，這項研究綜合利用了LSTM、灰色神經網絡（gray neural network，GNN）、哈希等技術，能夠高效處理多種類型的節點以及不同類型的信息，并且使對齊效果達到了可以應用的級別（總體F1分數為96.81%）。

2020年，Flamino J等人提出了一個可解決大規模對齊問題的多步驟通道。在這個通道中，引入了具有魯棒時間屬性的可伸縮特征提取，并使用了聚類算法，以便在圖上找到相似節點的分組。這些特征和它們的集群被輸入一個通用的對齊階段，在數百萬個可能的匹配中準確地識別伙伴節點。實驗結果表明，該管道可以處理大數據集，在內存限制下實現高效的運行。

5.3 實體對齊常用數據集

實體對齊較常用的數據集主要有以下幾種，見表4。

5.4 醫學實體對齊挑戰及未來研究方向

目前醫學實體對齊研究尚處于起步階段，根據醫學數據的特點，醫學實體對齊未來的研究方向主要包括以下方面。

● 醫學實體存在較多同義詞、縮略詞，導致實體對齊的精確性受到影響，但是醫療領域要求的精度非常高，使得在醫療領域實現實體對齊這項工作的開展和進行非常艱難，這將是之后醫療領域需要重點解決的問題。

● 數據質量良莠不齊，存在數據壁壘。由于不同醫療知識庫的構建目的和方式不同，數據質量不一，并且不同醫療機構的數據一般不能互相開放，如何打破數據壁壘，解決可能存在的相似重復數據、孤立數據、數據時間力度不一致等問題，是未來的一個重點研究方向。

● 醫療數據龐大復雜，標簽數據有限，且醫學數據精度要求高，需要領域專家手工對數據進行操作，這是一個耗費極大的工程。如何在較少的標簽數據中進行訓練，實現高效的實體對齊，也是后續研究要關注的問題。

6 醫學實體鏈接

6.1 實體鏈接定義

由于語言表達的多樣性、歧義性以及上下文關聯，語言理解面臨巨大的挑戰。語言理解主要包括語法解析、語義解析和特定的知識表示或其中的某個片段。而在知識圖譜中主要涉及的技術即實體理解或實體鏈接技術，將現實世界中的知識映射到現有知識圖譜中的實體，進而用現有知識圖譜進行表示，達到理解的目的。在實體鏈接任務中輸入的是實體的指代和上下文以及待鏈接的知識庫，輸出的是指代所對應的知識庫中的實體。

實體鏈接（或實體規范化、實體消歧）指將文本中的短語（提及范圍）映射到結構化源（如知識庫）中的概念。提及范圍通常是一個詞或短語，描述一個單一的、連貫的概念。

6.2 醫學實體鏈接的難點及現有技術

（1）聯合在命名實體識別和實體鏈接中建模

在知識庫構建中，實體識別是實體鏈接的前提，實體識別可為實體鏈接提供更多有效的信息。實體鏈接與實體識別聯合學習可減少工作量。實體識別與實體鏈接任務聯合解決既能提高命名實體識別的性能，也能提高實體鏈接的性能，是當前研究的重點和難點。

2017年，Lou Y X等人提出了一種基于轉換的聯合疾病實體識別與規范化模型，將輸出構造過程轉化為一個漸進的狀態轉換過程，允許使用非局部特征。實驗表明，與其他方法分開執行任務相比，聯合框架實現了更高的性能。與其他先進的方法相比，該方法更具優勢。

2019年，Zhao S D等人提出了一個新的具有顯式反饋策略的深層神經多任務學習框架，用于聯合實體識別和實體規范化建模。該方法利用多任務學習對兩個任務進行一般表示，在保持任務之間相互支持的同時，成功地將跨體系結構的任務轉換為并行的多任務設置。實驗結果表明，在兩個公開的醫學文獻數據集上，該方法比當時最先進的方法表現得更好。

2020年，Luo Z H等人開發了pyMeSHSim軟件包，這是一個用于生物醫學文本挖掘的集成、輕量級和數據豐富的Python包。作為第一個一站式醫學主題詞（medical subject heading，MeSH）工具包，它集成了生物NER、規范化和比較功能。pyMeSHSim嵌入了一個自制的數據集，其中包含主標題（main heading，MH）、補充概念記錄（supplementary concept record，SCR）及其在MeSH中的關系。基于該數據集，pyMeSHSim實現了4種基于信息內容的算法和一種基于圖譜的算法，可用于度量兩個網格術語之間的語義相似度。結果表明，使用pyMeSHSim識別的網絡術語和以前手工識別的網絡術語的語義相似度高達0.89～0.99。PyMeSHSim有望在生物信息學、計算生物學和生物醫學研究中作為一種強大的工具得到廣泛的應用。

（2）醫學實體語義模糊

基于研究和醫學文獻分析發現，相同疾病名可能以多種不同的形式出現，比如同義詞替換（如“腦中風”“腦卒中”）、疾病名稱前的簡短描述修飾語（如“大面積心臟病發作”），這些均會造成醫學實體語義的復雜多變。近年來針對這個問題的實體鏈接研究較多。

2017年，Cho H等人聯合解析同義詞和縮寫詞的領域特定詞典及基于神經網絡算法組合的大量未標注數據，該聯合方法的精確度顯著提高。

2018年，Gorrell G等人提出了一個新的系統Bio-YODIE。Bio-YODIE有兩個主要的組成部分，首先，資源準備步驟將運行時所需的UMLS和其他信息資源處理為高效的形式，盡可能多地提前完成工作，以盡量減少運行時的處理；其次，流程本身對文檔進行了注釋，這些文檔包括UMLS概念唯一標識符以及來自UMLS的其他相關信息。基于文本工程的通用結構（general architecture for text engineering，GATE），YODIE最初是一個通用的域系統，引用了DBpedia。BioYODIE是該系統的生物醫學版本，它繼承了一般領域的研究歷史。與MetaMapLite的不同之處在于，消除歧義是Bio-YODIE中的優先事項。Bio-YODIE已被集成到CogStack中，并在大規模臨床應用中得到廣泛應用。

2019年，Wright D提出了一個深度連貫模型NormCo，它考慮了實體提及的語義，以及單個文檔中提及的主題連貫性。NormCo在兩個疾病標準化語料庫上的預測質量和效率方面優于當時最先進的基線方法，并且至少在準確性和標記文檔的F₁分數方面表現同樣出色。

2019年，Mondal I等人提出了一種基于候選知識庫條目與疾病描述相似度的排序方法，探討了域內子詞級信息處理疾病規范化任務的能力。該方法利用由疾病描述m、陽性候選q_p、陰性候選q_ni組成的三元組(q_p, m, q_ni)進行候選排序，引入了一個穩健的、可移植的候選生成方案，該方案不使用手工編制的規則。在標準基準NCBI疾病數據集上的實驗結果表明，該系統在很大程度上優于先前的方法。

2020年，Zhu M等人提出了一種潛在類型實體鏈接模型LATTE，該模型通過對實體提及和實體的潛在細粒度類型信息進行建模來改進實體鏈接。與以前直接在實體提及和實體之間執行實體鏈接的方法不同，LATTE在沒有直接監督的情況下聯合執行實體對齊和潛在的細粒度類型學習。大量的實驗結果表明，該模型比幾種先進的技術具有顯著的性能改進。

（3）公開醫學數據集較小

在醫學領域，對數據進行標簽標注是一項費時費力的大工程。因此目前所有的實體鏈接公開數據集都是小規模的，如何在小規模數據集上進行高質量的實體鏈接是目前研究的一個難點。

2017年，Rajani N F等人提出使用精確聚焦的輔助特征來克服醫學領域的這些挑戰，這些輔助特征可以從少量數據中形成分類邊界。該模型優于多個基線水平，并在多個醫學數據集上更新了最優結果。

6.3 醫學實體鏈接常用數據集

醫學實體鏈接較常用的數據集主要有以下幾種，見表5。

6.4 未來展望

（1）別名實體候選生成問題

在醫學領域中相同的語義往往可以有多種不同的叫法，醫學實體的多詞同義現象十分普遍，在判斷別名實體時很難將所有對應實體的候選實體全部找出，導致實體鏈接的準確率下降，因此解決別名實體候選生成是未來的研究重點。

（2）不完整數據集的實體鏈接

在實體鏈接中，實體、實體的類別信息、關系信息以及上下文信息對實體對齊非常重要，醫學數據經常存在數據不完整的情況，使得實體鏈接效果不是很好，通過僅有的實體相關信息進行鏈接是醫學領域實體對齊面臨的又一大挑戰。

（3）基于多種語言的實體對齊

目前實體鏈接系統主要針對的是英文語料，中文或者其他語言的鏈接系統非常缺乏。中文以及其他語言與類似英語的語言不同，使得實體鏈接難度增加。對于中文和其他語言的實體鏈接系統，也需要重點研究。

7 醫學知識圖譜存儲

7.1 知識圖譜存儲方式

現有知識圖譜數據的存儲方式主要分為兩種：基于關系模型的存儲方式和基于圖模型的存儲方式。

基于關系模型的知識圖譜存儲方式包括三元組表、水平表、屬性表、垂直劃分、六重索引和DB2RDF。

目前，基于圖數據庫的知識圖譜存儲方法是學術界研究的主流。圖數據庫的優點在于其天然能表示知識圖譜結構，圖中的節點表示知識圖譜的對象，圖中的邊表示知識圖譜的對象關系。其最大的優點是可以用來處理復雜的關系問題，提供完善的圖查詢語言，支持各種圖挖掘算法。采用圖數據庫存儲知識圖譜，能有效利用圖數據庫中以關聯數據為中心的數據表達、存儲和查詢。基于圖模型的存儲方式見表6。

知識圖譜的存儲方式應考慮其后續的使用效率，應根據自己的應用場景、數據情況來具體設計。可參考表7選擇最適用的存儲方式。

基于醫學知識圖譜更側重于實體之間的關系（例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征）的特點，醫學知識圖譜的存儲基本采用圖數據庫，其中應用最廣泛的為Neo4j系統。曹明宇等人開發的基于知識圖譜的原發性肝癌知識問答系統、吳嘉敏構建的肺癌知識圖譜都將Neo4j作為知識圖譜的存儲系統。Deng W等人利用Neo4j圖形數據庫構建醫學圖譜，包含醫院科室、疾病和癥狀之間的關系，并基于圖譜提供醫學指導。

張崇宇提出了基于知識圖譜的醫療自動問答系統，考慮到知識庫問答應用中知識存儲與檢索的效率問題，采用三元組表示與圖數據庫存儲（Neo4j）以及JSON表示與鍵值對文檔型數據庫存儲（MongoDB）兩種形式的混合數據庫存儲的方式對構建的臨床醫療知識圖譜進行表示和存儲。同時，通過對醫療實體進行歸一化處理，將標準化后的實體作為節點存儲到知識圖譜中。

7.2 醫學知識圖譜存儲的難點及現有技術（以圖數據庫為例）

（1）復雜關系的可視化

在醫學知識中，實體之間的關系經常是錯綜復雜的，這使得將復雜關系能夠更好地可視化成為研究的一個難點。

當前，新的蛋白質和基因序列的數量呈爆炸式增長，這使得對其生物學特性的有效表征和分析變得越來越復雜。2019年， Hu G M等人提出了一個基于網絡的圖數據庫工具SeQuery，通過整合序列結構和功能信息，直觀地可視化蛋白質組/基因組網絡。用GPCR2841數據集進行的序列測試表明，SeQuery能正確識別查詢到的100個蛋白質序列中的99個。SeQuery非常適用于其他生物網絡，可以通過添加更多的生物數據庫來擴展SeQuery。

（2）用戶友好的查詢方式

知識圖譜的存儲是為了讓用戶更好地使用和查詢知識，讓用戶的查詢更簡單便捷一直是知識圖譜存儲的關鍵和難點。

結直腸癌（colorectal cancer，CRC）是常見的癌癥類型之一，它的發生與基因和細胞表觀遺傳機制的放松有關。2017年，Balaur I等人提出了圖數據庫EpiGeNet，用于存儲和查詢在結直腸癌發生的不同階段觀察到的分子事件（遺傳和表觀遺傳）之間的條件關系。EpiGeNet增強了探索與結直腸癌進展相關的研究方面的查詢能力，EpiGeNet框架提供了更好的管理和可視化數據的能力，特別是針對結直腸癌的發生和發展的分子事件。

基因組技術的最新進展使得從結核分枝桿菌分離物中產生大量成本效益高的“組學”數據成為可能，然后可以通過許多異構的公開可用的生物數據庫共享這些數據。盡管碎片化管理很有用，但它對研究人員聯合查詢利用數據的能力產生了負面影響。2020年，Lose T等人提出了抗結核病NeoDB（一個整合的結核分枝桿菌經濟學知識庫）。基于Neo4j，將標簽屬性圖模型綁定到合適的本體，從而創建抗結核病NeoDB。抗結核病NeoDB使研究人員能夠通過鏈接著名的生物數據庫和發表文獻中的結核分枝桿菌變體數據來執行復雜的聯合查詢。

（3）認證和加密形式的安全保障

隱私是醫院在發布涉及個人敏感信息的數據時應保留的一個重要因素。研究尋求在不侵犯個人信息保密性的情況下向公眾發布數據的解決方案。對數據進行處理，可以在維護基本信息的同時安全地發布數據。2020年，Saranya K等人提出了一種基于事務圖的自適應概率安全處理方法，用于醫療環境中的安全處理。該方法首先為每個用戶交互生成交互圖，并在此基礎上估計每個交互項的收斂性和偏差測度。基于這些值，該方法計算了一個概率矩陣，并在這個矩陣的基礎上生成本體。實驗結果表明，所提方法可以產生有效的安全處理和數據發布結果。

7.3 挑戰及未來研究方向

● 醫療數據類型種類繁多，現有圖數據庫系統支持過多數據組織的形式，但不清楚在一些情景中哪個是最好的。如何根據數據的不同選擇合適的系統和圖模型是未來一個很重要的問題。

● 醫療數據大多獨立分布在不同的醫療機構，數據的分布式存儲對醫療數據的存儲與分析至關重要。目前還沒有為圖數據庫開發拓撲感知或路徑感知的數據分布方案，特別是在最近提出的數據中心、高性能計算網絡拓撲和路徑體系結構的背景下。因此，未來數據的分布式處理將是一個亟待解決的問題。

● 很少有研究使用不同類型的硬件結構、加速器和硬件相關設計（如FPGA、與網絡接口卡相關的設計、硬件交互等），但這對于大規模醫療數據的存儲也是不可缺少的重要一環。

8 醫學知識圖譜應用

8.1 基于醫學知識圖譜的問答

醫學知識圖譜與問答系統的融合是目前極具挑戰性的研究方向，同時也是典型的應用場景。基于知識圖譜的醫療問答系統可以快速響應醫患用戶提出的問題，并給出準確、有效的解答。下面將從問答系統的實現方法、實際應用、關鍵挑戰3個方面進行闡述分析。

（1）實現方法

本文參考了近3年的研究進展，總結出醫療領域基于知識圖譜的問答系統主要有兩種實現方法：檢索式和生成式。其中，檢索式主要面向系統構建的知識圖譜，生成式主要面向系統收集的問答庫數據，表8列出了可用于構建基于知識圖譜的醫療問答系統的數據來源。

檢索式方法就是將用戶的問句轉化為知識庫的查詢語句，再將查詢的結果轉化成自然語言返回給用戶，其一般流程由語義提取、問題匹配以及答案查詢3個部分組成，如圖2所示。

語義提取指從用戶提出的問句中提取出涉及的醫學實體、關系等語義信息，主要包括實體識別和關系抽取兩部分，可以采用詞典匹配、傳統機器學習、神經網絡甚至平臺工具（如哈爾濱工業大學語言云平臺）等方法。參考文獻基于自定義詞典的Jieba分詞匹配獲得問句中的實體。

參考文獻中的DIK-QA系統使用BiLSTM-CRF神經網絡模型抽取問句中的醫療實體，并在該模型中引入注意力機制，以提高實體識別的準確度。參考文獻借助哈爾濱工業大學語言云平臺的LTPParser接口進行句法分析，將結果與詞庫內的實體進行比對，從而獲取比對成功的實體和關系。

問題匹配旨在識別問句的意圖，將問題進行分類，匹配預先制定的問題模板，一般采用匹配算法、TextCNN分類算法、SVM分類器等方法。Huang M X等人采用AC多模式匹配算法將問句匹配到不同的問題類型上。

參考文獻結合術語頻率-逆文檔頻率（term frequency–inverse document frequency，TFIDF）算法和word2vec詞向量生成句子向量，匹配最相似的問題模板，根據模板的語義及問題中的實體到知識圖譜中檢索答案。參考文獻均采用TextCNN分類算法實現問句類型的分類。謝剛等人利用支持向量機模型對問題進行主題分類和意圖識別。

圖2???檢索式方法的一般流程

答案查詢即根據問題模板將問題轉化成查詢語句，然后在知識圖譜中查詢問題的答案，主要通過查詢語句直接檢索答案或者通過推理規則得出答案。曹明宇等人使用Cypher語言在Neo4j圖形數據庫中查詢答案。參考文獻根據問題模板生成完整的SPARQL語言，并在甲狀腺知識圖譜內進行查詢。Bo L等人使用Elasticsearch查詢語言，配合簡單的輔助推理算法，給用戶匹配相關癥狀，搜索可能的疾病，并推薦適當的診斷方法。

而生成式方法則利用相關模型，根據輸入的問題生成答案或者直接檢索問答庫，其既需要醫療領域問答對語料數據，也需要知識圖譜的實體及關系數據，主要采用神經網絡進行模型訓練。參考文獻使用基于LSTM的Seq2Seq模型構建答案生成模型。參考文獻將記憶神經網絡作為智能問答的算法模型，將知識庫的知識存儲在模型中，可在網絡中直接調用。

（2）實際應用

雖然我國醫療問答系統起步較晚，但國內已有不少科技公司在市面上推出自主研發的醫療問答系統。如諾華制藥攜手騰訊合作推出的“護心小愛（AI）”，該平臺以微信小程序為載體，通過對話機器人為心衰患者提供針對常規醫療問題及日常生活問題的答疑解惑，以及科學的健康資訊。再如北京慧醫明智科技有限公司旗下的“慧醫大白”，其使用知識圖譜、語義理解和對話管理等技術手段，通過與用戶進行多輪問答，了解用戶的具體病癥，最終提供健康評估和健康行為建議。

而在問答系統起步較早的國外市場，最出名的面向醫學領域的智能問答系統是IBM的“沃森醫生（Dr.Watson）”，其學習了海量的醫療數據，包括領域內的頂尖文獻、診斷報告、電子病歷甚至醫學影像等醫療信息，利用自身龐大的知識庫為患者提出的醫學問題提供最佳的答案。

（3）關鍵挑戰

目前，國內醫療問答系統的研究發展仍然存在許多的挑戰，下面列舉了3個主要的關鍵挑戰。

一是針對非醫學專業人員的信息需求問題，由于他們的醫學專業知識不強，無法準確描述具體問題，在獲取答案時會存在一定程度的困難。

二是中文領域問答系統研究不足，主要體現在3個方面：①缺乏高質量醫學領域的語料資源；②國內醫學名詞術語標準化還存在整體規劃缺乏、權威術語標準數量不足以及更新不及時等問題；③構建中文領域的醫學智能問答系統的工具和方法不成熟。

三是醫療問答準確性問題，提高問答系統的準確性仍然是研究的熱門方向。

8.2 醫療用藥推薦系統

（1）簡介

醫學上的用藥推薦與一般的推薦算法不同，一般的推薦算法是根據用戶的歷史記錄，利用數學算法推測出用戶可能的需求，已被廣泛應用于電商等互聯網場景。而用藥推薦則是基于循證醫學的原則，結合患者的具體患病情況以及醫學專業知識，推薦適合的用藥方案。一般的推薦算法的推薦結果對準確率的容忍度較高，即使部分推薦結果與用戶需求不符，也能夠接受。但用藥推薦在實際應用中要求達到百分之百的準確率，即藥品一定能夠起到作用，且不能產生不良反應或藥品間的相互作用。

知識圖譜能夠更加清晰準確地表達疾病與藥品之間的適應關系以及藥品間的相互作用，基于知識圖譜的用藥推薦與其他人工智能方法相比，能夠取得更好的效果。目前基于知識圖譜的用藥推薦研究進展與其他基線水平相比有所提升，但還無法達到實際應用的要求。

（2）方法

目前醫療用藥推薦系統使用的方法主要有以下兩種。

第一種是圖卷積網絡的方法，即在圖上使用卷積神經網絡。2018年Shang J Y等人通過一個存儲模塊將藥物相互作用（drug-drug interaction，DDI）的知識圖譜集成為一個圖形卷積網絡，并將縱向患者向量建模作為查詢，該方法在所有有效性度量方面都優于所有基線方法，并且在現有電子健康記錄（electronic health record，EHR）數據中實現了3.60%的DDI率降低（即推薦藥品之間有相互作用的概率降低3.6%）。2019年，Wang S S等人提出了一種針對藥物組合預測（medicine combination prediction，MCP）的圖卷積強化學習模型。其將MCP任務轉換為無序馬爾可夫決策過程（Markov decision process，MDP）問題，并設計了一個深度強化學習機制來學習藥物之間的相關性和不良相互作用。相比于GAMENet，CompNet在Jaccard和F₁分數標準上分別提高了3.74％、6.64％。2020年，Kwak H等人構造了一個藥物疾病圖譜，使用圖神經網絡學習節點表示，根據學習到的節點表示來預測藥物節點和疾病節點是否具有藥物不良反應（adverse drug reaction，ADR）關系。與其他算法相比，該模型的接受者工作特征曲線下的面積（area under curve of receiver operating characteristic，AUROC）和精度召回率曲線下的面積（area under curve of precision recall curve，AUPRC）性能分別提高到0.795和0.775。

第二種是知識圖譜嵌入的方法，包括將實體和關系轉化為連續的向量空間，從而簡化操作，同時保留知識圖譜的原有的結構。2017年Wang M等人構建了患者疾病-藥品圖譜，將其嵌入低維空間后，進行用藥推薦。首先構建疾病和藥品圖譜，通過EHR分別連接疾病和藥品圖譜，形成兩個二分圖，通過患者數據將兩個二分圖連接起來，并構建了一個高質量的異構圖，該方法的預測準確度（即Jaccard系數）、藥物相互作用發生率、冷啟動（即沒有患者數據時的使用）、臨床專家評分均高于基線水平。2019年Wang X Y等人構建了疾病-藥品圖譜，將其嵌入低維空間后，進行用藥推薦，并提出一種基于知識圖譜嵌入增強主題模型（knowledge graph enhanced topic model，KGETM）的中藥推薦模型。在中藥基準數據集上的實驗結果表明，該方法優于當時最新的方法，中藥知識圖嵌入在中藥推薦中有很好的應用前景。

（3）研究方向

醫學知識圖譜在用藥推薦系統應用領域的未來研究方向主要有以下幾方面。

① 構建完整的醫學知識圖譜。人類對疾病與藥品的認識是動態變化的，結合疾病、癥狀、藥品、藥品間的相互作用及患者的臨床數據、患病的時間序列信息等，構建一個完整的醫學動態知識圖譜，確保知識的完整性、準確性和時效性。

② 知識圖譜嵌入學習是將實體和關系映射到低維連續向量空間的表示方法，在保留知識圖譜結構信息的同時，還能夠改善數據稀疏問題，提高計算效率，因此在進行后續用藥推薦任務之前，先對知識圖譜進行表示學習是很有必要的。

③ 考慮到構建動態醫學知識圖譜的必要性，而目前大多數知識嵌入表示研究建立在靜態的知識圖譜上，如何對動態知識圖譜進行有效的知識表示是一個待解決的問題。將圖時空網絡與動態知識圖譜相結合的知識嵌入表示用于用藥推薦是一個頗具價值的研究方向。

9 醫學知識圖譜未來展望

構建醫療領域的知識圖譜，可以從海量數據中提煉出醫療知識，并合理高效地對其進行管理、共享及應用，這對當今的醫療行業具有重要意義，也是很多企業和研究機構的研究熱點。本文對醫學知識圖譜構建過程中的研究熱點、現有技術、挑戰及未來發展方向進行了綜述，具體見表9。醫學知識圖譜將知識圖譜與醫學知識結合，定會推進醫學數據的自動化與智能化處理，為醫療行業帶來新的發展契機。醫學知識圖譜未來總的發展方向應該體現以下幾個方面。

（1）多語言醫學知識圖譜

國內外醫學知識的相互融合促進更有利于醫學領域的發展，而實現不同國界醫學知識的相互溝通和交流，多語言醫學知識圖譜技術是關鍵，這會成為未來醫學知識圖譜發展的一個重要趨勢。

（2）大規模多模態多源醫學知識庫

受到多方面因素的影響，現有的醫學知識圖譜規模大多有局限，表現方式也較為單一，大多以文本和圖數據的形式呈現，但聲音、影像、圖片等也蘊含大量的醫學信息，在醫學臨床中也存在大量的醫療影像、X光等多模態信息，醫學知識的來源也可以來自書本、文獻、網頁、視頻等。因此未來醫學知識圖譜研究的一個熱點是構建大規模多模態多源的醫學知識庫。

（3）基于時空特性的知識演化和多粒度知識推理

研究基于深度學習與邏輯推理相互約束的大規模多粒度知識推理模型與方法，研制基于本體、規則與深度學習相結合的大規模知識推理系統，使其能夠對包含10億級RDF三元組的知識庫和萬級規則進行推理，平均響應時間在秒級，并具有良好的可伸縮性。在此基礎上，研究基于時空特性的知識演化模型與預測方法，研制知識演化系統，使其能夠實時地對知識庫進行更新，平均響應時間為秒級。

作者簡介

譚玲（1993-），女，北京郵電大學博士生，主要研究方向為知識圖譜及自然語言處理、大數據及人工智能。

鄂海紅（1982-），女，博士，北京郵電大學副教授，主要研究方向為大數據及人工智能、知識圖譜及自然語言處理、大數據中臺、分布式微服務架構。

匡澤民（1979-），男，博士，首都醫科大學附屬北京安貞醫院高血壓科主任醫師，主要研究方向為高血壓精準診斷與治療、心血管臨床藥理、醫學人工智能。

宋美娜（1974-），女，博士，北京郵電大學教授，主要研究方向為大數據、聯邦學習及醫療健康、金融科技應用、大數據、聯邦學習及醫療健康。

劉毓（1998-），女，北京郵電大學碩士生，主要研究方向為知識圖譜。

陳正宇（1997-），男，北京郵電大學碩士生，主要研究方向為計算機視覺、知識圖譜。

謝曉璇（1997-），女，北京郵電大學碩士生，主要研究方向為知識圖譜。

李峻迪（1997-），男，北京郵電大學碩士生，主要研究方向為智能對話系統和Java開發。

范家偉（1998-），男，北京郵電大學碩士生，主要研究方向為深度學習。

王晴川（1997-），女，北京郵電大學碩士生，主要研究方向為自然語言處理。

康霄陽（1997-），男，北京郵電大學碩士生，主要研究方向為機器學習、計算機視覺。

聯系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉載、合作：010-81055307

大數據期刊

《大數據（Big Data Research，BDR）》雙月刊是由中華人民共和國工業和信息化部主管，人民郵電出版社主辦，中國計算機學會大數據專家委員會學術指導，北京信通傳媒有限責任公司出版的期刊，已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊，以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄，并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。

關注《大數據》期刊微信公眾號，獲取更多內容

總結

以上是生活随笔為你收集整理的虚拟专题：知识图谱 | 医学知识图谱构建关键技术及研究进展的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： XCTF-Reverse：re1
下一篇：重做实验七寻址方式在结构化数据访问中的