日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載公眾號 | DataFunSummit


分享嘉賓:徐美蘭?浙江數字醫療衛生技術研究院 數字醫學知識中心主任

編輯整理:李杰 京東

出品平臺:DataFunTalk

導讀:數研院這些年在知識圖譜建設上取得了豐碩成果,今天我們將圖譜構建過程中的經驗、心得分享給大家,歡迎大家討論交流。本次分享的題目為:深度應用驅動的醫學知識圖譜構建,主要內容包含4方面:

  • 國內外醫學知識圖譜發展情況

  • 醫學知識圖譜的領域特征和應用需求

  • 數研院醫學知識圖譜構建:模型建立、“七巧板”本體術語集構建、“匯知”圖譜構建

  • 醫學知識圖譜應用案例

01

國內外醫學知識圖譜發展情況

1.?知識圖譜概念

知識圖譜廣義概念:作為一種技術體系,指大數據知識工程的一系列代表性技術的總稱。

知識圖譜狹義概念:作為一種知識表示形式,知識圖譜是一種大規模語義網絡,包含實體、概念及其之間的各種語義關系。如下圖中的二甲雙胍知識圖譜片段。

2.?國外醫學知識圖譜

UMLS:由美國國家醫學圖書館自1986年起研究和開發的一體化醫學語言系統,包含超級詞表、語義網絡、專業詞典和詞匯處理工具。其規模:語義網絡包含133種語義類型,54中語義關系。超級敘詞表包含300多萬概念,1300多萬概念名稱。

SNOMED CT:2002年1月,SNOMED首次發布,它由兩大醫學術語SNOMED RT與CTV3合并而來,國際版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心構建是概念、描述(術語)和關系。其規模:目前包含19種語義類型,50多種語義關系,35萬概念,120萬描述(術語),110萬關系。

3.?國內醫學知識圖譜

CUMLS:由中國醫學科學院醫學信息研究所基于UMLS開發的中文一體化醫學語言系統,包含醫學詞表、語義網、構建工具與平臺。其規模:共收錄醫學主題詞3萬余條、入口詞3萬余條、醫學術語10萬余條、醫學詞匯素材30萬余條。

醫藥衛生知識服務系統:由中國醫學科學院醫學信息研究所承建,通過對資源的深度挖掘和關聯分析,建設了知識圖譜、知識脈絡分析等特色知識服務和應用。其規模:已發布疾病和藥品領域知識圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統疾病、免疫系統疾病、消化系統疾病、腫瘤等。

中醫藥知識圖譜:中國中醫科學院中醫藥信息研究所依托中醫藥學語言系統(TCMLS)構建了中醫藥知識圖譜。其類型包括:基于中醫藥學語言系統的知識圖譜、中醫美容知識圖譜、中醫養生知識圖譜、中國臨床知識圖譜。

OpenKG:由中國中文信息學會倡導的中文領域開放知識圖譜社區項目,主要工作內容包括:OpenKG.CN(開放圖譜資源庫)、cnSchema(中文開放圖譜Schema)和Openbae(開放知識圖譜眾包平臺)。

02

醫學知識圖譜的領域特征和應用需求

1.?醫學知識的特點

醫學術語多樣性:不同知識源對同一個概念采用了不同術語進行表達。比如:糖尿病又可稱為消渴癥、消渴、DM等。

精度要求高:醫學知識專業性強,醫學應用場景容錯率低,因此醫學知識圖譜的精確度要求高。

復雜度高:醫學是經驗總結的科學,醫學概念的內涵往往比較豐富,且有些醫學知識復雜很難用簡單三元組表達。

2.?醫學知識圖譜應用場景

醫學知識圖譜的不同應用場景需求側重點也有所不同,需要最大化的滿足才能提高圖譜的適用性。如下所示:

3.?定制化解決方案

為滿足行業深度應用需求,醫學知識圖譜構建時需引入更多定制化解決方案,如下所示:

03

數研院醫學知識圖譜構建

1.?模型建立

醫學領域的知識圖譜由于其知識專業性強,行業通常采用自上而下的方式,先構建Schema,再抽取知識。

數研院醫學知識圖譜Schema主要參考了UMLS語義網絡、Schema.org、cnSchema等。相關數據涉及四大領域:疾病、藥品、手術操作、檢驗檢查。當然我們在知識圖譜的構建過程中,會根據抽取和應用的實際情況,不斷完善和優化Schema。數研院醫學知識圖譜于2019年8月首次發布Schema,目前包含72種語義類型、493種語義關系。Schema查詢和下載地址為:http://schema.omaha.org.cn/class/Thing#。

Schema分別用于指導“七巧板”醫學本體術語集和“匯知”醫學知識圖譜的構建,完善醫學知識表達的體系。我們之所以在一個模型指導下構建兩個知識庫,是為了解決不同的問題。“七巧板”采用本體解決與邏輯定義(即內涵定義)相關的關系,以及層次關系。“匯知”采用語義網絡解決可能性、經驗性的關系,并且無層次關系。具體請看下圖:

2.?“七巧板”本體術語集構建

本體術語集的構建整體有6個步驟,依次如下所示:

Step1:確定領域范疇。當前我們以滿足臨床診療需求為切入點,開始嘗試構建醫學知識圖譜。主要涉及范圍:疾病、癥狀、體征,手術操作、檢驗檢查,藥品,人體形態結構,基因,醫療器械。

Step2:選取合適的知識源。充分收錄行業現行標準、教科書、指南等權威知識源,并同時補充臨床病歷、互聯網診療中的術語等。

Step3:梳理重要術語。梳理領域中的重要術語,并由領域專家進行語義層面的實體歸一,完成概念化。相關流程如下所示:

Step4:建立關系。“七巧板”醫學本體術語集的核心構建包括:概念、術語、關系及映射。如下圖所示:

充分保留知識源中的已有層級關系,通過機器推理、人工添加的方式進行優化。挖掘知識源中的屬性關系,并通過機器推薦、人工添加進行補充。制定明確的映射規則,采用機器推薦、專家審核的方式建立映射。

Step5:存儲和瀏覽。采用關系型數據庫,分為概念表、術語表、關系表、映射表進行存儲,且保留歷史痕跡。術語瀏覽器實現術語集構建的快速查找,并可按需實現子集定制。如查看關系操作如下所示:

Step6:平臺及工具支撐。自研的知識庫維護平臺(CoWork),內嵌術語集研制規則,支持多人共同協作。CoWork中“七巧板”的功能如下所示:

CoWork中術語集編輯器可實現概念層面的編輯功能需求,并支持多人同時在線協作,協作方式為不創建分支,采用編輯鎖。術語映射工具利用算法推薦,調高映射效率。目前“七巧板”術語集收錄97萬概念、123萬術語和292萬關系,包含疾病、操作、藥品等語義類型。我們在持續進行更新維護,按季度發布,每季度第一個月20號發布新版本。

3.?“匯知”圖譜構建

“匯知”知識圖譜的構建有五個步驟,分別如下:

Step1:選取合適的知識源。選取臨床指南、臨床路徑、醫學書籍文獻等權威知識源,并同時補充醫學百科類知識。簡言之,即非結構化知識源+半結構化知識源+結構化知識源。

Step2:知識抽取。具體內容包括:實體識別和關系抽取。

實體識別通過基于規則的命名實體識別+專家審核提高標注效率,產生的標注數據用于訓練深度學習模型。具體流程如下所示:

關系抽取基于實體識別的結果,專家標注關系,產生的標注數據用于句法規則總結和半監督學習。具體流程如下所示:

Step3:知識融合。最大化地將“匯知”圖譜與“七巧板”術語集融合,可為圖譜的深度應用打下基礎。其過程大致包括實體歸一、實體對齊、關系融合等階段。具體操作如下所示:

Step4:知識存儲和檢索。除傳統的三元組外,加入“屬性組”和“來源”字段,使知識表達更加準確,同時確保知識的可溯源性。保留三元組的來源,滿足三元組在不同場景應用的需求。還可通過可視化搜索,快速直觀地查看圖譜數據,如下圖所示:

Step5:平臺及工具支撐。自研知識庫維護平臺(CoWork),內嵌知識圖譜集研制規則,支持多人共同協作。CoWork中“匯知”的功能描述如下:

用戶可創建多種自定義標注方案,批量上傳和分配任務,在基于brat的文本標注工具上,各地志愿者可合作共建知識圖譜。“匯知”圖譜目前已發布7個領域,共計約11萬實體,82萬三元組,每個季度第二個月20號發布新版本。前述7個領域如下所示:

最后,數研院發起的知識圖譜協作項目已持續開展5年,已有百名個人志愿者、多家優秀企業參與。貢獻榜如下所示:

04

醫學知識圖譜應用案例

1.?智能預警

知識圖譜作為底層支撐,輔以更多規則,實現更全面的臨床診療推理。如下低鉀案例所示:

此外,還可基于知識圖譜進行推理,實現實驗室危急結果的預警和處方異常預警。如下胸痛案例所示:

2.?指南推薦

基于醫學本體層級關系推理后進行推薦,使推薦結果更豐富。如下科塔爾綜合征案例所示:

另外,還可根據患者信息,推薦相似病歷、臨床路徑、指南等,輔助醫生制定治療計劃、規范治療流程。如下案例所示:

3.?數據直報

將醫學知識圖譜中的部分內容作為信息模型中的值集,實現醫療數據與醫學知識之間的綁定。術語綁定指:將醫學術語集中的概念分配臨床信息模型中的具體數據單元,從而實現醫學術語和臨床信息模型的聯系和賦予某種程度上的語義。讀者可參考下圖理解:

也可在信息系統中提前設定相應規則,基于“法定傳染病”子集,進行傳染病直報判斷與提示。如下圖所示:

除此以外,其他應用還包括:智能編碼、科研分析等。如果讀者感興趣可關注我們的官網動態~

今天的分享就到這里,謝謝大家。


分享嘉賓:


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。