论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation
KDD 2021
0 摘要
????????面對COVID-19的爆發(fā),醫(yī)療資源緊缺問題日益突出。因此,迫切需要有效的醫(yī)療資源配置策略。
????????強化學習(RL)對于決策制定很強大,但通過強化學習解決這個問題存在三個關(guān)鍵挑戰(zhàn):
(1)現(xiàn)實世界中復雜的情況和無數(shù)的決策選擇;
? (2) 由于大流行傳播的潛伏期,只能獲得不完整的信息;
? (3) 在現(xiàn)實世界中進行實驗的局限性,因為我們不能隨意設(shè)定大流行的爆發(fā)。
????????在本文中,我們提出了一種具有相應訓練算法的分層強化學習方法。
????????我們設(shè)計了一個分解的動作空間(decomposed action space)來處理無數(shù)的選擇,以確保有效和實時的策略。
????????我們還設(shè)計了一個基于循環(huán)神經(jīng)網(wǎng)絡的框架來利用從環(huán)境中獲得的不完整信息。
????????我們建立了一個基于真實世界數(shù)據(jù)的流行病傳播模擬器,作為實驗平臺。???????
????????我們進行了廣泛的實驗,結(jié)果表明我們的方法優(yōu)于所有基線,平均減少了 14.25% 的感染和死亡。
1 introduction
????????本文主要考慮的是兩種醫(yī)療資源:醫(yī)院病床和醫(yī)用口罩。
????????長期以來,公共衛(wèi)生研究人員一直在研究醫(yī)療資源配置問題。
????????已經(jīng)提出并采用了基于個人特征(例如年齡、職業(yè)或癥狀嚴重程度)的策略。
????????其他指導方針,包括挽救最多生命或挽救最多生命年闡明了最終目標,但將此類高級目標轉(zhuǎn)化為實際策略并非易事。
???????? 另一方面,用于大流行干預的機器學習也早已被研究,包括關(guān)于有效隔離策略的工作?等。
????????然而,專注于用AI解決醫(yī)療資源分配問題的方法,尤其是使用強化學習的方法,仍然未被開發(fā)。
? ? ? ? 對于使用強化學習的方法進行醫(yī)療資源分配,有三個主要的挑戰(zhàn):
? ? ? ? (1)現(xiàn)實世界場景中的醫(yī)療資源分配意味著無數(shù)種決策選擇,即過大的決策空間。這會導致設(shè)計和訓練 RL? agent的困難。 ?
? ? ? ? (2)由于流行病傳播的潛伏性,我們無法準確描述流行病的整體感染情況,只能獲得不完整的信息,這增加了決策的難度。
? ? ? ? (3)由于我們無法在現(xiàn)實世界中任意設(shè)置大流行病的爆發(fā),因此無法在現(xiàn)實世界大流行病傳染過程中訓練和測試 RL agent。這會導致實驗的進行受到限制。
? ? ? ? 本文提出了層次化強化學習模型?(hierarchical reinforcement learning method),這個模型解決了上面說的三點挑戰(zhàn):
? ? ? ? 解決挑戰(zhàn)(1):為了解決過大決策空間的困難,我們?yōu)?RL agent設(shè)計了一個分解的動作空間(decomposed action space)。它能夠在現(xiàn)實世界范圍內(nèi)的復雜情況下生成有效的策略。 同時,我們設(shè)計了相應的訓練算法,確保了RL agent得以高效訓練。
? ? ? ? 解決挑戰(zhàn)(2):為了解決不完善信息帶來的困難,我們設(shè)計了一個基于門控循環(huán)單元GRU的框架來利用不完善信息。 通過從環(huán)境中獲得的不完整信息重建流行病傳播情況的完整信息,它為 RL agent做出決策提供了依據(jù),這對性能有很大貢獻.
? ? ? ? 解決挑戰(zhàn)(3):我們建立了一個基于疾病模型和現(xiàn)實世界數(shù)據(jù)的大流行傳播模擬器,結(jié)果證明它可以精確地模擬現(xiàn)實世界的情況,并且可以很好地作為我們的實驗平臺。
我們的主要貢獻可以總結(jié)如下:
? 我們提出了一種具有分解動作空間的分層強化學習方法,以及相應的訓練算法。 由于我們的優(yōu)化設(shè)計,訓練過程實現(xiàn)了高效,同時在現(xiàn)實世界范圍內(nèi)提供了有效和實時的策略。
? 我們提出了一個不完整信息的利用框架,從而在信息不完整的情況下取得了良好的性能,接近現(xiàn)實世界。
? 我們設(shè)計了一個基于真實世界數(shù)據(jù)和疾病模型的大流行病傳播模擬器。 我們根據(jù)真實世界情況證明其準確性,在此基礎(chǔ)上我們使用模擬器作為實驗平臺。 我們在不同環(huán)境下的兩個城市進行了廣泛的實驗,結(jié)果表明我們的方法比所有基線平均高出 14.25%。
?2 preliminary
2.1 疾病模型
在SEIR的基礎(chǔ)上,本文提出了一個八狀態(tài)模型:
| S | 易感人群 (Susceptible),指未得病者,但缺乏免疫能力,與感染者接觸后容易受到感染 |
| E | 暴露人群 (Exposed),指接觸過感染者,但暫無能力傳染給其他人的人,對潛伏期長的傳染病適用 |
| Iu | 已經(jīng)感染疾病,但是沒有檢測的人。這些人的出行不受任何限制 |
| It | 已經(jīng)感染疾病,同時被檢測出疾病的人。這些人的出行被限制在某一個區(qū)域內(nèi) |
| Ia | 已經(jīng)感染疾病,但是疾病監(jiān)測沒有檢測出陽性的人 |
| Ih | 被送醫(yī)治療的感染者 |
| R | 康復人群(recovered) |
| D | 死亡人群(dead) |
圖1展示了本文的SEIR模型中各狀態(tài)之間的轉(zhuǎn)化情況
| β | 每一個感染狀態(tài)的人(Iu+It+Ia+Ih),在單位時間內(nèi),通過和S狀態(tài)的人之間的交互(I-S contact),導致的E狀態(tài)人的增加數(shù)量——>這個衡量了疾病的傳染情況 |
| 每一個E狀態(tài)的人,在單位時間內(nèi),通過和S狀態(tài)的人之間的交互(E-S contact),導致的E狀態(tài)人的增加數(shù)量 | |
| ε | 每一個E狀態(tài)的人,在單位時間內(nèi),變成各個I狀態(tài)的人的概率 |
| α | 每一個I狀態(tài)的人,在單位時間內(nèi),變成各個D狀態(tài)的人的概率 |
| μ | 每一個I狀態(tài)的人,在單位時間內(nèi),變成各個R狀態(tài)的人的概率 |
?2.2 醫(yī)療資源
本文主要考慮兩種醫(yī)療資源:床位和醫(yī)用口罩
我們研究一個有N人口的城市,其中我們根據(jù)路網(wǎng)結(jié)構(gòu)劃分成M個區(qū)域(每個區(qū)域的人口是)
我們同時定義了以下的表示
| Total Bed Number | 所有醫(yī)院可以提供的床位總和 | |
| Available Bed Number | 在時刻t,可用的床位的數(shù)量 | |
| Total Mask Number | 我們假設(shè)每一個人每天消耗一個醫(yī)用口罩 是每天一個城市醫(yī)用口罩的供應量? | |
| Remaining Mask Number | 在時刻t,剩余可用的醫(yī)用口罩 | |
| γ | Mask Efficacy Factor | 醫(yī)用口罩有效過濾病毒的比例 |
| mask coverage percentage | 口罩覆蓋率 |
即疾病原始的感染率為β0
那么如果有口罩之后,各個區(qū)域在時刻t的實際感染率為:
表示戴了口罩,同時口罩有效過濾病毒的比例,這一部分是可以抵御病毒的比例
?2.3 問題描述
? ? ? ? 我們考慮醫(yī)療資源極度短缺的情況。在時刻t,當小于人們所需要的口罩數(shù),小于醫(yī)院需要的床位數(shù)。我們需要找到實時最高效的對M個區(qū)域的分配方案,這種分配方案可以有最少的損失。
? ? ? ? 經(jīng)過T天的傳播之后,流行病帶來的損失可以由以下四種評估方式評定:
| 累計感染人數(shù) | 在T天內(nèi),所有被感染過的人(包括死亡、康復和現(xiàn)在仍然在感染狀態(tài)的人 |
| 累計死亡人數(shù) | 在T天內(nèi),所有死亡人數(shù) |
| 最大日增感染人數(shù) | 在T天內(nèi),日增感染人數(shù)的最大值 |
| 最大日增死亡人數(shù) | 在T天內(nèi),日增死亡人數(shù)的最大值 |
?????????前面的兩個衡量了疾病的嚴重程度,后兩個衡量了基本的傳播速度
2.3.1 醫(yī)療資源分配問題定義
? ? ? ? 在時刻T,給定一個由M塊區(qū)域的城市,每塊區(qū)域由人口組成。給定時刻t,可用的床位的數(shù)量和時刻t,剩余可用的醫(yī)用口罩,以及目前的傳染病傳播情況,我們的目標是最小化疾病造成的損失,找到每個區(qū)域最佳的病床和醫(yī)用口罩的分配策略和,其中分配方案滿足
? ? ? ? 根據(jù)2.2的描述,我們可以計算時刻t,某一區(qū)域i的實際感染率:
?
3 方法
3.1 系統(tǒng)全覽
?整個模型由兩部分組成:
1,不完全信息的使用:從環(huán)境中的不完全信息中重構(gòu)完整信息
2,層次化強化學習模型:從第一步重構(gòu)的完整信息中找到實時策略
代碼部分:?https://github.com/KYHKL-Q/Hierarchical-RL
?3.2 不完全信息的使用
?3.2.1 疾病傳播信息的定義
????????在一個有M塊區(qū)域的城市中,某一個疾病狀態(tài)X(X在這幾個狀態(tài)中)是一個M維的向量,我們記為
????????表示在區(qū)域i中,狀態(tài)為X的人的數(shù)量?
3.2.2 模型介紹
? ? ? ? 在現(xiàn)實問題中,或者所有這8個狀態(tài)的疾病傳播信息是很難的。換言之,我們有的都是不完全的信息。
? ? ? ? 根據(jù)實際的情況,我們可以獲得類似于It(已經(jīng)感染疾病,同時被檢測出疾病的人。),Ih(被送醫(yī)治療的感染者),D(死亡人數(shù))的疾病傳播信息;
????????但是像S(易感人群)、E(暴露人群)和Iu(已經(jīng)感染疾病,但是沒有檢測的人。)的疾病傳播信息則不太好求得。
????????R狀態(tài)(康復人群)也不太好求得,因為有些只有輕微癥狀的人在尚未被檢測陽性或者送醫(yī)之前,在家里就已經(jīng)康復了。
? ? ? ? 在現(xiàn)實世界中,S狀態(tài)(易感人群)的人占多數(shù),與此同時Ia狀態(tài)(已經(jīng)感染疾病,但是疾病監(jiān)測沒有檢測出陽性的人)的人則很少。
? ? ? ? 因此,我們可以這么認為:除了狀態(tài)S狀態(tài)(易感人群)和Ia狀態(tài)(已經(jīng)感染疾病,但是疾病監(jiān)測沒有檢測出陽性的人)之外,E(暴露人群)、Iu(已經(jīng)感染疾病,但是沒有檢測的人。)、It(已經(jīng)感染疾病,同時被檢測出疾病的人。)、Ih(被送醫(yī)治療的感染者)、R(康復人群)和D(死亡人群)有著很廣泛的波動范圍,這幾個狀態(tài)的疾病傳播信息可以很好地反映疾病的整體情況。這幾個狀態(tài)在幫助RL agent制定決策的時候起著很大的作用。
? ? ? ? 因此,不完整信息使用的目標是:通過可以觀測得到的狀態(tài)It,Ih和D,推測未知的狀態(tài)E,Iu和R的情況。
? ? ? ? 我們利用GRU建模時間序列的能力,來進行信息的重構(gòu)。
?
? ? ? ? (注:這張圖有問題,第三個應該是Ih)
? ? ? ? GRU-RNN模型整體由三個分支組成,每個分支由1024個GRU組成,同時用Tanh作為激活函數(shù)。(三個分支是一個狀態(tài)對一個呢?還是三個對三個呢?看完代碼我再補上)
? ? ? ? 在每個分支的末尾,我們同時設(shè)計了一個1024*M(M是區(qū)域的數(shù)量)的全連接層。以便于將GRU中的隱層狀態(tài)投影到最終的輸出上。
? ? ? ? 由于輸入和輸出都是在特定區(qū)域,特定狀態(tài)的人群的數(shù)量,這個數(shù)字是很大的,經(jīng)過Tanh激活之后可能區(qū)別不大。于是我們在輸入之后,輸出之前分別研究了一個1:1000的縮放層,將數(shù)值放縮至一個合理的范圍。
? ? ? ? 我們使用BPTT和Adam來進行訓練,獲得了很好的收斂結(jié)果。
3.3?分層強化學習
3.3.1 決策空間分解
????????典型RL方法在解決醫(yī)療資源配置問題時面臨的一個巨大挑戰(zhàn)是現(xiàn)實情況下面臨的過大的行動空間。
????????一個城市通常有數(shù)百個地區(qū)(地區(qū)數(shù)記為M),有各種各樣的醫(yī)療資源可供分配(資源種類的數(shù)量記為𝐾)。
????????因此,輸出策略應該是一個形狀為𝑀×𝐾的矩陣,它位于一個高維空間,導致一個非常大的行動空間。
????????此外,各要素之間存在約束:各類醫(yī)療資源的總可用量是固定的,這增加了RL agent做出正確決策的難度。
????????為了解決這個問題,我們設(shè)計了一個分解的行動空間來進行決策,而不是直接給出上面描述的矩陣。
????????對各類醫(yī)療資源,首先給出各地區(qū)的顯著性排序。
????????我們設(shè)計了若干排序原則,包括根據(jù)感染人數(shù)、人口密度、區(qū)域人口流動強度及其組合進行排序。
????????決策的第一步是選擇一個排序原則,該原則位于一個離散的行動空間,并給出顯著性排序。
????????
????????第二步是給出一個滿足因子,一個介于0和1之間的浮點數(shù),記為f。
????????在醫(yī)療資源配置的過程中,我們按照給定的顯著性等級來考慮區(qū)域。我們用𝑈𝑖表示𝑖地區(qū)需要的某一種醫(yī)療資源的數(shù)量,將這類醫(yī)療資源的𝑓×𝑈𝑖分配給該地區(qū),然后再轉(zhuǎn)到下一個地區(qū),即只滿足其需求的𝑓。(并不一定排序在前面的f就一定大)
????????當沒有更多的醫(yī)療資源時,分配過程就結(jié)束了。
????????因此,決策的第二部分是給出浮點數(shù),因此它位于一個連續(xù)的動作空間中
????????我們將決策過程分解為兩個步驟,將超大的行動空間分解為相對較小的離散和連續(xù)兩個步驟,使得RL agent能夠做出有效的決策。
此外,有兩件事值得一提:
?????????在不同種類的醫(yī)療資源中,離散行動和連續(xù)行動都是獨立的,即不同種類的醫(yī)療資源可以根據(jù)不同的顯著性排名和滿意度因子進行配置。
?????????每種醫(yī)療資源的離散和連續(xù)行動都隨時間而變化,即實時策略。這兩點確保了行動有足夠的自由度,從而保持了無數(shù)的可能性,從而有可能實現(xiàn)最大限度地減少該流行病造成的損害的目標。
3.2.2 獎勵函數(shù)
????????在RL 訓練中,我們使用一個特別設(shè)計的獎勵函數(shù)來衡量流行病傳播情況的嚴重性。
????????我們用𝑠𝑖表示在𝑖時間步后的流行病傳播情況。
????????表示在狀態(tài)si的時候,各個區(qū)域狀態(tài)為X的人的總數(shù)
? ? ? ? ?于是,我們定義時間片i的單步獎勵函數(shù)
?????????
? 其中:
C是一個常數(shù)
E是暴露人群
論文里是寫的Iut,但我個人覺得這邊應該是Iu
Iu+It表達的是感染了但是沒有檢測的人+感染了同時檢測出陽性的人
????????當?時,也就是沒有新增的時候 reward 最大,為C;只要有新增,那么括號里面的內(nèi)容就會小于1,那么reward就會小于C
? ? ? ? 我們同時定義了長期的獎勵函數(shù)Fi?
????????
?表示未來獎勵的折現(xiàn)因子?
? ? ? ? 在有限步的問題中,求和運算可以在一個特定的時間節(jié)點終止
3.3.3 網(wǎng)絡結(jié)構(gòu)
????????在離散動作空間中(前面的第一步,算排序),每一種醫(yī)療資源使用一個DQN;
DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客
????????在連續(xù)動作空間中(前面的第二步,算f值),每一種醫(yī)療資源使用一對Actor-Critic網(wǎng)絡
強化學習筆記:Actor-critic_UQI-LIUWJ的博客-CSDN博客
?????????這些網(wǎng)絡的詳細結(jié)構(gòu)如圖4所示,張量的形狀隨著研究城市區(qū)域數(shù)量的變化而變化。
?????????所有網(wǎng)絡都使用Leaky-ReLU作為激活函數(shù)。
????????DQN采用流行病傳播情況的重建信息,并對每個排序原則給出估計的長期回報,同時選擇回報最高的原則進入實時策略。
????????連續(xù)動作空間中的actor網(wǎng)絡接受重建的信息,并給出最佳的滿意度因子(f)【即action】。
????????為了確保滿足因子限制在0到1之間,我們在網(wǎng)絡的末端設(shè)置一個Sigmoid-Clip層,如下所示:
????????
?????????其中𝛿為手動設(shè)置的滿意度因子下界,可近似設(shè)置為該城市醫(yī)療資源總量除以人口規(guī)模。
?????????連續(xù)行動空間中的critic網(wǎng)絡(critic network)只作用于訓練過程。
????????它吸收環(huán)境信息和actor網(wǎng)絡給出的滿意度因子,輸出給定滿意因子的估計長期獎勵。
? ? ? ? 換句話說,critic network通過policy gradient對actor network進行有監(jiān)督訓練。
?????????特別地,我們在輸入流行病傳播信息后立即設(shè)計重新排序?qū)?#xff0c;使輸入載體中的元素進行交換。
????????這些層的作用是最大化相鄰元素之間的關(guān)聯(lián)度,從而有利于卷積層提取特征。(卷積層時DQN還是actor-critic在用?看完代碼補充)
????????關(guān)聯(lián)度是通過相應區(qū)域之間的人口流動強度來衡量的(定義見章節(jié)4.1)。
????????我們將輸入向量中的𝑀個元素表示為𝑉𝑖,𝑖= 1,2,…𝑀并使用𝐶(𝑖𝑗) 𝑖≠𝑗之間的關(guān)系程度𝑉𝑖和𝑉𝑗
????????因此,問題可以表述為:
? ? ? ? ?可以證明問題2和TSP (NP完全問題)是等價的,因此沒有多項式時間來精確地計算之。
????????我們使用隨機方法搜索1億個可能的重排序序列(𝑀!總可能性),并選擇最好的一個。雖然不是很精確,但我們得到了一個足夠好的解決方案,以滿足卷積特征提取的需要。
3.4 訓練算法?
????????現(xiàn)有的研究主要集中在離散動作空間和連續(xù)動作空間中訓練RL agent的算法上。
????????然而,在我們的分解動作空間設(shè)計中,需要一種算法來訓練一個RL agent同時在連續(xù)和離散動作空間中執(zhí)行動作,這一點一直未被探索。
????????我們通過對廣泛應用的DQN訓練算法和DDPG算法進行改進,提出了一種新的算法。
????????我們復制每個網(wǎng)絡生成相應的目標網(wǎng)絡,并在訓練過程中對網(wǎng)絡進行軟替換?soft replacement。
????????我們在訓練中也采用經(jīng)驗重播 experience replay。
????????值得一提的是,該算法可用于訓練具有任意𝐷個離散動作和任意𝐶個連續(xù)動作的RL agent。
????????在本篇文論中,我們考慮兩種醫(yī)療資源,所以此時𝐶=𝐷= 2?
? ? ? ? 我們使用?來表示參數(shù)為的DQN;
????????使用表示參數(shù)為的連續(xù)actor網(wǎng)絡 。
? ? ? ? 使用表示參數(shù)為的連續(xù)critic網(wǎng)絡
? ? ? ? 其中
? ? ? ? 其中代表了對應的目標網(wǎng)絡。
????????
? ? ? ? 我們使用表示時刻t的離散動作,用表示時刻t的連續(xù)動作
? ? ? ? ?表示時刻t的流行病傳播信息
????????表示時刻t的reward?
?????????當使用來自經(jīng)驗重放緩沖區(qū)的𝑁樣本的mini-batch處理來更新權(quán)重時,記為
?????????
(在狀態(tài)時,如果我們采取離散動作以及連續(xù)動作,那么我們會得到獎勵,進入后續(xù)的狀態(tài))
?我們使用如下方式計算loss
(總的reward,DQN和actor-critic分別的reward)
使用TD的方式進行更新
??
?4 實驗部分
4.1 流行病傳播模擬
????????由于我們不能任意地在現(xiàn)實世界中設(shè)定大流行爆發(fā),因此訓練一個RL agent在現(xiàn)實世界大流行傳播中檢驗我們的方法是不現(xiàn)實的。因此,我們設(shè)計了一個傳染病傳播模擬器,包括疾病模型和人口流動模型。
????????我們采用2.1節(jié)中提到的COVID-19的八狀態(tài)疾病模型,同時使用醫(yī)學研究中描述COVID-19特征的參數(shù)[7,8,10,16,28],以保證疾病建模的真實性。
????????如3.1節(jié)所述,我們根據(jù)道路網(wǎng)絡將城市劃分為𝑀區(qū)域,這些區(qū)域很好地匹配了城市中的現(xiàn)實世界功能區(qū)。
????????該城市的總?cè)丝谝?guī)模(記為𝑁)可在政府的官方網(wǎng)站上查詢。
????????人口流動建模是基于真實世界的流動數(shù)據(jù),通過與互聯(lián)網(wǎng)服務提供商合作,收集用戶訪問基于位置的服務的GPS坐標。
????????考慮到隱私保護,我們消除了用戶的詳細信息,并保持以下數(shù)據(jù):
- 時刻𝑡從地區(qū)𝑖到地區(qū)𝑗的用戶數(shù)量。
- 時刻t在地區(qū)i的總用戶人數(shù)
????????我們收集了北京和上海兩個城市的數(shù)據(jù),詳細信息如表1所示。注意,在北京,我們只考慮市中心地區(qū),稍后簡稱為Beijing。
????????我們計算在時間維度上的平均值,得到𝑖區(qū)域內(nèi)的平均用戶數(shù)(表示為)。
????????然后,我們通過比較𝑁和各區(qū)域,來估計各區(qū)域內(nèi)的人口規(guī)模,因為某一區(qū)域內(nèi)互聯(lián)網(wǎng)服務用戶的空間分布與整體人口分布相似。(按照各區(qū)域的比例分配N)
????????因此,𝑖地區(qū)的人口密度也是可求得的,通過計算該地區(qū)的面積。
???????我們可以通過和的比率來估計人口流動強度,即從區(qū)域𝑖在時間𝑡前往區(qū)域𝑗的可能性,記為。 請注意,由于早晚、工作日和周末之間的人口流動性不同而隨時間變化。
????????模擬過程如算法 2 所示,其中每個時間步長為 30 分鐘,以提供高時間分辨率的結(jié)果。
?????????我們評估我們實施的模擬器的精度,確保它作為實驗平臺表現(xiàn)良好。
???????? 我們在北京市中心進行了為期 2 周的模擬,然后將結(jié)果與 2020 年 6 月北京新發(fā)地疫情爆發(fā)期間的官方報告 1進行了比較。
????????考慮到模擬的隨機性和模擬中的平均感染病例數(shù),我們進行了 10 次模擬 在圖 5 中與現(xiàn)實世界中的情況一起繪制。
????????結(jié)果顯示,模擬和現(xiàn)實世界情況之間的決定系數(shù) = 0.984。 它表明模擬器可以精確地模擬現(xiàn)實世界的情況,這可以支持我們的分層強化學習方法的評估。
?4.2 實驗配置
????????為了全面檢查我們的方法的性能,我們設(shè)計了三個實驗,在兩個城市的各種初始感染情況下進行。 設(shè)置如表 2 所示,在每個實驗中,𝐼0 初始感染病例平均分布到 𝐾個 初始區(qū)域。
???????? 我們模擬了四個月(120天)的疫情傳播過程,在此期間,我們將前兩個月設(shè)置為自由傳播期,后兩個月采取應對措施。
???????? 我們每 24 小時調(diào)整一次實時策略,并將兩個城市為治療 COVID-19 患者 ?配備的病床總數(shù)𝑁𝐵設(shè)置為 10000。
????????我們設(shè)置了兩個城市的每日外科口罩供應數(shù)量 ( 𝑁𝑀 ) 略低于人口規(guī)模的 10%,這勾勒出醫(yī)療資源稀缺的情況。
????????我們將口罩功效因子 𝛾 固定為 0.9,這是外科口罩的典型值 [3]。
?
????????實驗 1 和 2 之間的對比顯示了聚集爆發(fā)和分散爆發(fā)之間的差異,而實驗 1 和 3 之間的對比涵蓋了完全不同城市的情況。
4.3 對比試驗
????????我們將我們的方法與幾個bbseline進行比較,包括公共衛(wèi)生領(lǐng)域的專家解決方案和基于 RL 的方法。
????????專家解決方案包括:
? 無醫(yī)療:未分配醫(yī)療資源的情況,作為空白對照組。
? 專家嚴重性[1]:根據(jù)大流行傳播的嚴重性順序分配醫(yī)療資源。 感染病例較多的地區(qū)具有絕對優(yōu)先權(quán)。 ?
? 專家人口[9]:根據(jù)人口密度分配醫(yī)療資源。 人口密度較高的地區(qū)具有絕對優(yōu)先權(quán)。
????????強化學習方法以及強化學習與專家解決方案的結(jié)合如下:
? DQN Greedy:一種非分層強化學習方法,應用一個 DQN 來選擇每種醫(yī)療資源的重要性排序原則。 排名較高的地區(qū)具有絕對優(yōu)先權(quán)。
? DQN 專家[5]:DQN 和專家解決方案的組合。 公共衛(wèi)生研究表明,如果口罩覆蓋率達到大約 86%,則可以有效控制 COVID-19 的大流行。 因此,DQN 用于選擇外科口罩的排名原則,而滿意度因子固定為 0.86。 對醫(yī)院病床的操作與 DQN Greedy相同。
????????這些baseline 方法涵蓋了公共衛(wèi)生研究中的權(quán)威專家解決方案和典型的 RL 解決方案。 此外,通過結(jié)合 RL 和專家解決方案,最后一個基線優(yōu)于前一個基線,結(jié)果證明是最強的。
4.4 主要結(jié)果和分析
????????我們基于模擬器評估訓練好的模型。?考慮到隨機性,我們將所有模擬重復 10 次。
???????? 首先,我們考慮完美的信息情況,我們的方法直接從環(huán)境中獲取所有 8 個狀態(tài)的精確疾病傳播信息,而無需重建信息,基線方法也是如此。
???????? 由第 2.3 節(jié)中定義的四個指標測量的結(jié)果(越低越好)如表 3 所示,其中我們將指標值除以人口規(guī)模,括號中顯示了 10 次模擬中的標準偏差。
????????事實證明,我們的方法在所有 3 個實驗中都優(yōu)于所有基線方法。
??
????????然后我們研究了信息不完善的情況,我們僅使用 3 個狀態(tài)【It(已經(jīng)感染疾病,同時被檢測出疾病的人。)、Ih(被送醫(yī)治療的感染者)和𝐷(死亡人數(shù))】的信息來訓練基于 DQN 的基線,并且由于缺乏感染病例的信息,專家嚴重性無法發(fā)揮作用。
????????我們的方法通過信息重建工作,在不完善的信息中利用框架中RNN層數(shù)的影響如圖6所示。準確率是相對誤差小于30%的輸出值的百分比。
???????? 我們注意到,在北京和上海的情況下,由于使用超過 4 層的過擬合,準確率沒有明顯的提高甚至下降,而隨著層數(shù)的增加,訓練時間大大增加。 因此,我們使用 4 個 RNN 層,足夠用于信息重建,同時可以兼顧到有效性和準確性。
????????
?以相同指標衡量的最終結(jié)果如表 4 所示。
????????圖 7 顯示了我們的方法和基線之間的比較。 我們將最強基線(DQN 專家)的性能標準化為 1.0,并通過所有 4 個指標的平均值計算大流行造成的相對損害。
????????
????????所有結(jié)果證明,我們的方法可以提供更有效的實時醫(yī)療資源分配策略,大大減少了大流行造成的損失。
????????在數(shù)量上,與最強基線相比,在完美信息情況下的平均性能增益為 11.00%,而在不完美信息情況下為 14.25%。
????????不完美信息下更高的性能增益證明了不完美信息利用的設(shè)計在不完美信息下帶來了額外的好處,更接近現(xiàn)實世界的情況。
????????我們以實驗 1 中的病床分配為例,將我們的方法應用 10 天和 30 天后的策略可視化在圖 8 的北京地圖上,顏色越深表示醫(yī)療資源越多。 它表明,在大流行傳播過程中,策略會有所不同,并且一些關(guān)鍵區(qū)域被分配了更多的資源,即高效和實時的策略。 ?
?4.5 訓練過程的收斂性和有效性
???????我們在北京和上海的數(shù)據(jù)集上訓練 RL 智能體,北京的訓練過程如圖 9 所示。由于分解動作空間的設(shè)計,大大簡化了決策過程,因此輕量級網(wǎng)絡可以滿足我們的需求。 結(jié)合我們的訓練算法,我們可以高效地進行訓練過程。 在沒有高性能 GPU 的筆記本電腦上,平均每一步只消耗 8.26 秒,而在筆記本電腦上,整個 100 步不到 15 分鐘。 第 3.4 節(jié)中定義的訓練損失在訓練過程中迅速下降,表明收斂性良好。
????????
總結(jié)
以上是生活随笔為你收集整理的论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文笔记: Modeling Extre
- 下一篇: shp格式文件简介