贝叶斯网络在疾病预测诊断中的应用与优化
摘要
現今,國內外疫情形勢依然嚴峻,新冠疫情已經嚴重影響人們正常的生活,甚至造成了全球經濟的衰退化,疫情對經濟產生的直接影響,是我們很直觀可以看到、可以感受到的。比如說旅游景點關閉、餐廳不能正常營業、電影院關門等等。在全民接種疫苗的時代,新冠肺炎病毒也在不斷的變異,對人民的生命和財產安全造成了很大的威脅。貝葉斯網絡作為問題不確定推理的一個有效手段,它結合圖論相關知識和概率論不僅可以完成問題的后驗概率推理,還能很清楚地描繪出變量之間存在的依賴關系,具有很強的應用價值。因此,可以高效的幫助醫護人員篩選較大概率患有新冠肺炎的患者。
?? ?本文先以類似新冠肺炎癥狀患者為研究對象,提出基于貝葉斯網絡的新冠肺炎檢測方法 ?;谀繕巳巳旱膰摇⒛挲g、性別、癥狀、等數據樣本以及貝葉斯網絡的參數學習,由此建立基于貝葉斯網絡的疾病預測與優化預測模型 ,通過構建貝葉斯網絡對人群患新冠肺炎的概率大小進行預測,以提高管理效率,幫助醫護人員判斷那些患者需要重點關注,降低新冠肺炎傳播帶來的危害。
關鍵詞:醫療診斷、貝葉斯網絡、新冠肺炎疫情
?
ABSTRACT
Today, the epidemic situation is still grim at home and abroad. COVID-19 has seriously affected people's normal life, and even caused the deterioration of the global economy. The direct impact of the epidemic on the economy is very intuitive to see and feel. For example, tourist attractions are closed, restaurants are not open normally, cinemas are closed, etc. The novel coronavirus pneumonia is also changing constantly in the era of universal vaccination, which poses a great threat to the safety of people's lives and property. As an effective means of problem uncertainty reasoning, Bayesian network combines the relevant knowledge of probability theory and graph theory. It can not only complete the posterior probability reasoning of the problem, but also clearly describe the dependency between variables, which has strong application value. Therefore, novel coronavirus pneumonia patients can be screened efficiently by health care workers.
Novel coronavirus pneumonia patients with novel coronavirus pneumonia were selected as the subjects. Novel coronavirus pneumonia novel coronavirus pneumonia prediction model based on Bayesian network is established based on gender, age, gender, symptom, data and Bayesian network parameters learning. The Bayesian network is used to predict the probability of new crowns pneumonia, so as to improve the management efficiency and help the medical staff to judge the patients' need to focus on the disease and reduce the harm caused by the spread of the new crown pneumonia.
Key words:medical diagnosis; Bayesian netw orks; COVID-19
一、緒論
(一)研究背景
新冠病毒是一種傳染性極強的病毒,主要的傳播途徑是呼吸道飛沫傳播和接觸傳播,因其傳染性極強,當下全球各地都受到了來自新冠病毒不同程度上的影響。新冠病毒病發有著較強的潛伏期,感染新冠后,普通人很難第一時間察覺,從而會引發更多的傳染。當前,如何有效診斷新冠肺炎成了亟待解決的問題。
(二)目的和意義
傳統的診斷方法是核酸檢測,但是由于新冠病毒具有14天潛伏期,有可能出現核酸檢測為陰性但實際上已經被感染的情況。CT圖像也是最常見的診斷手段,但這種診斷方式相對而言比較耗時耗力,且存在一定的誤診率。本課題的研究目的是通過貝葉斯網絡,搜集患者近期的一系列狀態(例如是否到過高風險區、是否經常吸煙、最近有無發燒癥狀等等),通過這些狀態,可以計算出患者患新冠肺炎的概率大小,從而幫助醫護人員判斷哪些患者是需要重點關注的。
當前新冠疫情仍然在全球流行,并仍將持續比較長的時間,甚至今后還要與我們共存,本課題通過貝葉斯網絡提前收集患者的一系列狀況,預測該患者患新冠肺炎的概率,從而幫助醫護人員劃分出低中高風險的患者,有針對性地進行防患,做到有備無患,同時可以及時的發現有可能感染新冠的患者,能夠對其進行隔離或一定措施處理。這種診斷相比傳統的CT影像和核酸檢測,具有更快的判斷速度,將患者近期的一系列狀態輸入網絡中就可以實現自動檢測,大大減輕了醫生的工作量。
(三)國內外發展情況
春柳等人在[1]中提出了一種基于關聯規則的貝葉斯網絡,對654份河南省新冠肺炎臨床資料進行分析,從所有患者表現出的臨床癥候中選出關聯較強的癥候群,并分析癥候對診斷結果的貢獻度,以此為基礎建立條件概率表。該研究方向為臨床診斷新冠肺炎供給了一種新的思路。張君輝等人在其文獻[2]中闡述了一種基于貝葉斯網絡的大型油輪上感染新冠高風險人群識別,以風險程度作為節點概率表,利用各節點之間的邏輯關系確立概率,使用該模型判斷患病高風險人群的預測準確率達到了81%左右。曹杰等人在其文獻[3]中提出一種新的構建貝葉斯網絡結構的思路,從搜索評分的結構分析方法、節點數量龐大導致復雜度高、貝葉斯網絡的多標簽分類方法、去改良貝葉斯網絡的構建以及創新。劉繼等人在其文獻[4]對新冠疫情的事情特點、關注度、傳播擴散度及網民觀念偏向等方面構建網絡輿情態勢評價指標,從而可以有針對性的對“新冠肺炎疫情”相關網絡輿情管理提出了建議。王慶等人在其文獻[5]針對我國抗擊新冠疫情的有效措施構建了基于貝葉斯優化的模型,分析得出管控后疫情得到有效控制,以此來幫助國外疫情,給出一定的指導意義。葛洪磊等人在其文獻[6]針對我國以及全球應急物資保障體系存在突出短板,應用貝葉斯決策分析進行應急物資配置決策建模,能夠幫助國家有效的應對此情況做出較為正確的處理。春柳,謝洋等人在其文獻[7]提取證候要素 25個,其中病位證素 12個,以肺、心神(腦)、脾為主;病性證素 13個,以濕、熱(火)、毒、氣虛為主,研究疾病初中后期的病位,從而幫助辨別新否為新冠肺炎,以證候要素為節點構建貝葉斯網絡,通過患新冠的患者的不同時期時出現的癥狀,預測患新冠患者處于患病的時期。高山等人在其文獻[8]闡述了針對突發公共衛生事件的不確定性通過貝葉斯網絡建立模型,以有效的預防此類突發衛生事件的發送,以情景狀態為節點構建模型,有效的得出出現該情景時需要做出的預防和措施,是一種很好的處理方式。
一、貝葉斯相關理論(一)貝葉斯網絡基本原理1.1貝葉斯網絡概述貝葉斯網絡(Bayesian network),又稱信念網絡(Belief Network),或稱有向無環圖模型,是一種概率圖模型,它是一種模擬人類推理過程中因果關系的不確定性處理模型,其網絡拓樸結構是一個有向無環圖(DAG),作為一種數據分析和不確定性推理的有效工具,貝葉斯網絡可助力人們實現概率統計在復雜領域 ?的實際應用,有效解決各種復雜問題[9]貝葉斯網絡。貝葉斯網絡一是將多元知識圖解可視化的一種概率知識表達與推理模型,它能夠在眾多數據中,做出精準的預測,從而不被干擾,所以更能夠接收和理解,二是貝葉斯網絡可以處理有較大不確定性問題的能力,貝葉斯網絡的條件概率表能夠清晰的表達個要素之間的關系,能夠在不完整,不確定的條件下進行訓練和學習,三是貝葉斯網絡可以有效避免對數據的過度擬合,貝葉斯網絡具有堅實的理論基礎和強大的知識表達及推理能力,加之模型直觀易懂,被廣泛應用于諸多不確定問題的處理,如醫學病例的診斷、災害的風險分析、事故的預測等[10]。這些成功的應用,充分體現了貝葉斯網絡是有效處理不完整的數據集的充分印證。學習能力越來越強,使用范圍不斷擴大。隨著機器學習的進步,關于貝葉斯網絡的研討會數量不斷增加,可見貝葉斯網絡是一個值得認真研究和討論的話題。	這里我們來舉例說明一下表示創業的貝葉斯網絡的例子,在這個貝葉斯模型中包含了3個關于創業品質的節點,節點A表示的事件為有方法,節點B表示的事件為做事有毅力,節點C表示創業是否成功,每個事件的取值都只有0和1兩個取值,也就是代表有或者沒有。	如圖,每一個節點都有自己對應的條件概率表,當創業有方法時,成功的概率為0.6,即P(A|C)=0.8,事件A,B都相互獨立,進而可以逐步推導出該網 					 方法 ? ? ? ? ? ? ? ? 毅力
0.70.3
0.70.3
0.70.3 ??
A=1B=00.6A=0B=10.6A=1B=10.9A=0B=00 ? ? 創業 圖1.1 一個貝葉斯網絡的例子絡的聯合概率為:P(A, B, C,) = P(A)P(B)P(C | A),可以用過這個式子表示出節點與節點之間的依賴關系,貝葉斯網絡可以通過圖形模型展示節點間的因果關系,因此可以通過樣本和先驗概率模型相結合,找到節點之間的依賴,為需要推理預測的問題加以指導。 ?1.2貝葉斯網絡的定理要明白貝葉斯網絡的定理,我們首先需要明白什么是條件概率,以及什么是聯合概率、全概率、邊緣概率[11],這些相關概念它們有什么含義,首先,條件概率(后驗概率)是事件A給定另一個事件B的概率。 條件概率表示為P(A | B),讀作“條件B下A的概率”: ?聯合概率指的是含有多個條件且這些條件同時成立的概率,記P=(X=a,X=b),必須要留意的是所有條件在同一時刻成立,邊緣概率則與聯合概率與之對應,指的是某個事件產生的概率,即事件A的邊緣概率可以記作P(A),事件B則可記作P(B),如果確定事件A的概率為P(A),則事件B的概率為P(B),當事件A出現事件B發生的概率(A的后驗概率)和事件B發生的情況下事件A的概率(B的后驗概率)可以分別表示為P(A|B)和P(B|A),根據條件概率的定義直接得到貝葉斯方程。即因為P(A,B) = P(A)P(B|A) = P(B)P(A|B),所以P根據條件概率的公式定義可得貝葉斯網絡公式: ?貝葉斯網絡是一個由節點和有向線段組成,線段則表示兩個節點之間的關聯,線段是有方向的,節點可以表示變量或事件,所以貝葉斯網絡是一個有向無環圖,它可以通過圖形的方式來表達變量之間的因果關系,所以我們可以通過將先驗模型事件與我們要訓練數據相互結合,來確定事件之間的依賴關系,得出有效的預測。 (二)貝葉斯網絡學習2.1 ?貝葉斯網絡參數學習貝葉斯網絡的學習分為兩類,一是結構學習,二是參數學習,參數學習主要是學習節點的條件概率表,通過網絡結構來確定每個節點的參數,我們通常在獲得數據的時候不一定完善,所以對于數據來書參數學習也分為完備的數據參數學習和不完備的數據參數學習。完備的數據指的是獲得數據比較全面,沒有出現數據丟失的情況,不完備的數據則是與之相反,當一個數據比較完善的情況下,通常采用的貝葉斯方法和最大似然估計法,他們2個都要滿足在給定互相獨立的參數時且節點的條件概率分布相同。采用貝葉斯估計法對節點參數進行估計的流程可以分為一下幾個步驟: ?圖2.1 貝葉斯參數估計流程2.2 D-分離,簡單地說,這是傳統的判斷獨立性的方法。如果有向圖中的兩個變量a和b對于另一組變量c被D分離,則可以在這樣的圖中表示的所有概率分布都與c無關。你什么意思?這意味著兩個變量a和b獨立c。因此一旦你知道c,即使知道a并不會給你任何關于b的更多信息。2.3貝葉斯網絡管道模型在貝葉斯網絡信息管道模型中[12][13],節點被以為是閥門,節點之間的邊被以為是信息流管道。節點被認為是閥門,節點之間的邊緣被認為是數據流通道。碰撞節點(帶收斂箭頭的節點)代表的閥門關閉,通信關閉。顯現后的開放空間。都是由無碰撞節點所代表的閥門在實施時打開和關閉。弧線方向的兩個節點之間的路徑稱為有向路徑,稱為路徑,不符合該方向的路徑稱為無方向路徑,稱為鏈接。貝葉斯網絡有兩條路徑。第一個是節點不沖突的路徑,稱為數據流可以流動的開路。當節點被實例化時,數據流被阻塞。另一個是包含碰撞的路徑。稱為閉環的節點只要在一切碰撞節點都被實例化同時非碰撞節點沒有被實例化的情況下才能遍歷。
?
一、基于貝葉斯網絡的新冠肺炎預測模型的構建(一)貝葉斯網絡建模1.1建模方法貝葉斯網絡的構建過程中,第一個貝葉斯網絡的結構圖需要確定的,一個直接表示貝葉斯網絡節點之間關系的拓撲圖。一般來說,獲取貝葉斯網絡圖通常有兩種方法。一種是通過訓練數據集獲得,但該方法不僅需要大量數據作為支持,否則貝葉斯網絡結構不可靠。然而,如果在貝葉斯結構的研究中使用大量的數據集,事故網絡的圖隨著事故數量的增加呈指數增長,所以根據情況選擇所需的方法更可靠,也會更高。第二種方法是利用專家的經驗和知識手動王城貝葉斯網絡圖的創建。該方法具有構造加單、精度高、易于理解、相關性強等優點。其次,專家經驗和機器學習模型結合以上兩種方法,在機器學習建模過程之中增加經驗,配合完成貝葉斯模型網絡的構建。這種辦法不只提高了貝葉斯網絡在機器學習中的效率,并且減少了建模過程中產出的錯誤數目,從而提高了模型的準確性。這種方法使您可以對機器學習過程進行一定程度的控制,并為您的系統提供更可預測的貝葉斯網絡。今天,大多數貝葉斯網絡模型都使用這種集成方法,并且正在進行更多相關研究。至于是貝葉斯網絡特定拓撲,應該指定每個節點狀態中的信息,而對于節點無法確定的狀態,貝葉斯條件概率表務必傳達顯示節點的狀態。同時,每個節點信息的下一個參數應該使用現有的統計數據,通過訓練得到一些條件概率。此外,根據專家經驗,統計無法實現條件概率。通常的方法是引入直觀的模糊函數或專家判斷來進行確定概率。條件概率表[49]。目前,使用合適的工具學習貝葉斯條件概率表需要大量的相關數據,但新冠肺炎數據每天不斷擴大。例如,得到的條件概率表有不合邏輯的概率。隨機學習是一個不可避免的錯誤。因此,需要利用專家的經驗優化通過隨機學習獲得的條件概率表。 1.2建模步驟一旦確定了建模方法,就可以按照一定的步驟建立模型。創建貝葉斯網絡模型通常包括以下幾個階段進行,第一階段:選擇節點變量并確定模型的預值。我們需要從模型中選擇一個可變因素。需要選擇模型的因子變量,即每一個幾點對應一個貝葉斯網絡。選擇變量的相應節點后,必須確定指定變量的值。通常情況下,節點值應該都是離散的,如果節點變量是連續變量或特征變量,則應該是離散化變量。第二步:建立貝葉斯網絡確定模型的模型變量后,就可以開始鏈接到貝葉斯網絡的模型了。一般來說,貝葉斯網絡是通過先驗知識模型來研究的,并且測試數據處于良好狀態。結構學習是將鏈接網絡節點依照相關關系連接起來構成的有向無環圖,學習結構是通過連接網絡節點的無環圖,根據因果關系確定學習參數,并給出貝葉斯網絡節點之間的值。通過研究貝葉斯網絡的結構和參數,得到一個完整的貝葉斯網絡,并用貝葉斯方法計算預測節點的概率分布。第三步:建立貝葉斯網絡的邏輯布局,研究整個貝葉斯網絡,選擇合適的方法進行邏輯推理分析。貝葉斯理論是基于網絡節點間條件傳移的概率理論,通過模型分析,可以推導出網絡節點中任意變量的概率分布,并對模型進行邏輯論證。通過三個主要步驟,就可以構建一個較為完整貝葉斯網絡模型。通過上述3個步驟,我們就可以構建基本的貝葉斯網絡模型,貝葉斯網絡模型構建流程圖如下: ?圖3.1 貝葉斯建模流程 (二)構建新冠肺炎檢測的貝葉斯網絡模型2.1變量的選擇與處理在目前已有的數據基礎上,結合實際情況分析,篩選了一部分數據作為研究變量:	癥狀變量:發熱、疲憊、干咳、呼吸困難、喉嚨痛、無癥狀、疼痛、鼻塞、流鼻涕、腹瀉	年齡變量:小孩(0-9歲)、青少年(10-19歲)、青年(20-24)、中年(24-59歲)、老年(60+)	嚴重程度:輕度、中度、中度本文的新冠肺炎數據來自于世界衛生組織(WHO)who.int和印度衛生與家庭福利部給出的指南得出的數據,根據WHO的定義,COVID-19的主要5種癥狀分別是發燒、疲倦、呼吸困難、干咳和喉嚨痛,而疼痛、鼻塞、流鼻涕、腹瀉則是數據經歷其他任何癥狀,嚴重程度這方面主要是基于新冠的嚴重程度,這里把它們統一合并成了感染新冠,使用這些分類變量,將變量中的每一個標簽生成一個組合,因此,數據創建了8000個組合。由于貝葉斯網絡的學習會將0認為是缺失值,所以我們設置值的時候取1開始,由于變量數據過多,本著降低模型復雜度的原則下,合并了一些數據的分支,例如癥狀的嚴重程度,依據WHO定制的主要癥狀以及專家學者的經驗,將各變量的取值表展示,見表3.2.1. ? ? 圖3.2.1感染新冠影響變量 2.2貝葉斯網絡節點的選取與值的確定通過我們對已有變量的選取和確定,在建模的過程中我們是可以對已有變量進行使用的。我們將新冠肺炎相關數據進行了一個整合處理,構成了一個新的樣本數據集,我們這里將數據整合成一個矩陣,行代表新冠肺炎數據的個數,列代表為具體變量的個數,下面會展示一部分數據如圖3.2.2所示,是一個nxm矩陣。 ?圖3.2.2貝葉斯建模的部分數據 2.3變量相關性分析利用spss Statistics對變量進行相關性分析,相關代碼展示,以及其中個變量與決策變量的相關性分析結果如圖3.2.3所示。通過此表可以得出,除年齡在數據處理以及學習范疇,其他變量對感染新冠肺炎都有一定的影響,其中與新冠肺炎相關性較強的變量有發熱、疲憊、喉嚨痛、干咳、流鼻涕5個變量,與決策變量與事故嚴重程度相關性較弱的是疼痛、呼吸困難、腹瀉、鼻塞、年齡,此處我們需要注意的是雖然年齡、性別兩方面,也有較強相關性,但是癥狀是第一重要性,在排列完癥狀后,在考慮年齡問題。根據變量和感染新冠的相關性分析,我們可以將各個變量從大到小進行排列,排序的結果如下:新冠感染程度:發熱、流鼻涕、疲憊、喉嚨痛、干咳、疼痛、呼吸困難、腹瀉、鼻塞、年齡、性別。	根據各變量與感染新冠可能性的相關性分析,再介個專家建模經驗以及先驗概率確定節點的變量順序為;1-發熱、2-呼吸困難、3-疲憊、4-喉嚨痛、5-干咳、6-疼痛、7-腹瀉、8-流鼻涕、9-鼻塞、10-age0~9、11-age60+、12-age10~19、13-age20~24、14-age25~59、15-男性、16-女性。確定了網絡節點排序后,就可以依據機器學習,進行貝葉斯網絡結構模型的建立,本次研究借助了MATLAB軟件,使用了基于MATLAB的工具箱full-BNT,學習數據集貝葉斯網絡結構,主要的操作流程是,將需要的數據集導入MATLAB中,輸入節點的名稱,將它們進行編號、排序,以及節點的取值,最后調用full-BNT工具箱的算法,對貝葉斯網絡模型進行學習,建立出初步的貝葉斯網絡模型。代碼見附錄A ?圖3.2.3各變量與事故嚴重程度的相關性分析 2.3數據預處理采用SPSS和SPSS Modeler 對數據進行挖掘,建立貝葉斯網絡模型,分析影響感染習慣肺炎可能性的因素;通過實證判別對其的相關風險,并預測將來潛在感染新冠肺炎病毒的人群。 ? ?2.4模型建立通過Spss Modeler進行操作,具體分為以下幾個步驟:1.選擇源節點,導入新冠相關數據的Excel表格,表格的內容都是已經完善的數據2.選擇字段選項,找到類型,這一步操作主的目的是區別輸入和輸出字段,同時點擊讀取值可以讀取數據的值.3.建模,建立訓練模型,完成貝葉斯網絡的構建4.運行基礎的貝葉斯網絡模型 ? (2.5.1) 2.5預測結果分析從性別可以看出女性感染的概率比男性大,從癥狀來看,發熱占到了第一的概率 ? ? ? 二、總結與展望(一)總結構建貝葉斯網絡模型主要由建立各個節點條件概率的計算和貝葉斯網絡結構的建立這兩個部分構成,第一,貝葉斯的網絡結構建立必須大量的數據模型進行支撐,首先需要獲得新冠肺炎的相關的一系列數據,從而得到較優的網絡結構。第二,如何確定貝葉斯的各個節點以及確定節點與節點的弧和弧的方向,可以選取一些關鍵因素,例如年齡、肺部CT 圖、是否往返過高風險地區等等作為貝葉斯網絡的節點。第三,需要確定節點概率表,才能構建出完整的貝葉斯網絡模型。本文通過新冠數據及專家意見調查,構建疾病優化與預測的貝葉斯網絡模型,并且以此模型對新冠肺炎患病的風險進行了預測計算,通過相關節點進行預測,可以在一定程度上進行患病風險評估。并借助該模型,對人們在外出過程中可能遇到的新冠肺炎患者后自己有疑似新冠肺炎癥狀以及自身因數的15個重要的風險因子進行了患新冠肺炎的等級劃分。在構建模型的同時,也遇到了對需要處理的數據不健全等問題,通過大量找尋數據得到了解決,在構建貝葉斯模型的時候,使用了Spss-Modeler,構建流模型,對數據類型進行了分析,同時預測了變量的重要性,當有重要風險因子出現時,應該立即采取針對措施來規避或降低風險,從而幫助減輕新冠病毒的大量傳播。(二)創新通過貝葉斯網絡構建疾病預測模型在目前在國內是很少有人研究的方向,是一個新型的研究,貝葉斯網絡作為一個可以對不確定數據集以及推理范疇最有效的理論模型之一,應對在我們在目前狀況下新冠病毒不斷變異的情況下,有著強有力的預測水準??梢愿咝У膸椭t護人員辨別高危人群,早日實現“動態清零”的目標(三)展望本文通過構建貝葉斯網絡在疾病預測和優化的模型,成功的構建了模型,而且在疾病預測方面取得了一定的進展,但基于貝葉斯網絡的模型優化,還需要一定的加強。在今后的研究過程中,需要加強對大量數據進行一定的篩選判斷,在實際的應用中,我們很難去獲得那么多完整的數據,如何從不完整的大量數據中建立較為真實的網絡結構模型,這是一個需要加強研究探索的方向。通過實際數據與專家經驗的結合,完善每一個節點的概率,加強每一個節點的準確性,同時發覺每一個節點的更大用途,總而言之,對于概率模型以及節點概率表的改進,是對貝葉斯疾病預測與優化的模型是最直接,最有效的方法
總結
以上是生活随笔為你收集整理的贝叶斯网络在疾病预测诊断中的应用与优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TBS 腾讯浏览服务(X5WebView
- 下一篇: fluent瞬态计算终止条件在哪里设置_