當前位置：首頁 >

论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation

發(fā)布時間：2025/4/5 42 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

KDD 2021

0 摘要

????????面對COVID-19的爆發(fā)，醫(yī)療資源緊缺問題日益突出。因此，迫切需要有效的醫(yī)療資源配置策略。

????????強化學習（RL）對于決策制定很強大，但通過強化學習解決這個問題存在三個關(guān)鍵挑戰(zhàn)：

（1）現(xiàn)實世界中復雜的情況和無數(shù)的決策選擇；

? (2) 由于大流行傳播的潛伏期，只能獲得不完整的信息；

? (3) 在現(xiàn)實世界中進行實驗的局限性，因為我們不能隨意設(shè)定大流行的爆發(fā)。

????????在本文中，我們提出了一種具有相應訓練算法的分層強化學習方法。

????????我們設(shè)計了一個分解的動作空間（decomposed action space）來處理無數(shù)的選擇，以確保有效和實時的策略。

????????我們還設(shè)計了一個基于循環(huán)神經(jīng)網(wǎng)絡的框架來利用從環(huán)境中獲得的不完整信息。

????????我們建立了一個基于真實世界數(shù)據(jù)的流行病傳播模擬器，作為實驗平臺。???????

????????我們進行了廣泛的實驗，結(jié)果表明我們的方法優(yōu)于所有基線，平均減少了 14.25% 的感染和死亡。

1 introduction

????????本文主要考慮的是兩種醫(yī)療資源：醫(yī)院病床和醫(yī)用口罩。

????????長期以來，公共衛(wèi)生研究人員一直在研究醫(yī)療資源配置問題。

????????已經(jīng)提出并采用了基于個人特征（例如年齡、職業(yè)或癥狀嚴重程度）的策略。

????????其他指導方針，包括挽救最多生命或挽救最多生命年闡明了最終目標，但將此類高級目標轉(zhuǎn)化為實際策略并非易事。

???????? 另一方面，用于大流行干預的機器學習也早已被研究，包括關(guān)于有效隔離策略的工作?等。

????????然而，專注于用AI解決醫(yī)療資源分配問題的方法，尤其是使用強化學習的方法，仍然未被開發(fā)。

? ? ? ? 對于使用強化學習的方法進行醫(yī)療資源分配，有三個主要的挑戰(zhàn)：

? ? ? ? （1）現(xiàn)實世界場景中的醫(yī)療資源分配意味著無數(shù)種決策選擇，即過大的決策空間。這會導致設(shè)計和訓練 RL? agent的困難。 ?

? ? ? ? （2）由于流行病傳播的潛伏性，我們無法準確描述流行病的整體感染情況，只能獲得不完整的信息，這增加了決策的難度。

? ? ? ? （3）由于我們無法在現(xiàn)實世界中任意設(shè)置大流行病的爆發(fā)，因此無法在現(xiàn)實世界大流行病傳染過程中訓練和測試 RL agent。這會導致實驗的進行受到限制。

? ? ? ? 本文提出了層次化強化學習模型?（hierarchical reinforcement learning method），這個模型解決了上面說的三點挑戰(zhàn)：

? ? ? ? 解決挑戰(zhàn)（1）：為了解決過大決策空間的困難，我們?yōu)?RL agent設(shè)計了一個分解的動作空間（decomposed action space）。它能夠在現(xiàn)實世界范圍內(nèi)的復雜情況下生成有效的策略。同時，我們設(shè)計了相應的訓練算法，確保了RL agent得以高效訓練。

? ? ? ? 解決挑戰(zhàn)（2）：為了解決不完善信息帶來的困難，我們設(shè)計了一個基于門控循環(huán)單元GRU的框架來利用不完善信息。通過從環(huán)境中獲得的不完整信息重建流行病傳播情況的完整信息，它為 RL agent做出決策提供了依據(jù)，這對性能有很大貢獻.

? ? ? ? 解決挑戰(zhàn)（3）：我們建立了一個基于疾病模型和現(xiàn)實世界數(shù)據(jù)的大流行傳播模擬器，結(jié)果證明它可以精確地模擬現(xiàn)實世界的情況，并且可以很好地作為我們的實驗平臺。

我們的主要貢獻可以總結(jié)如下：

? 我們提出了一種具有分解動作空間的分層強化學習方法，以及相應的訓練算法。由于我們的優(yōu)化設(shè)計，訓練過程實現(xiàn)了高效，同時在現(xiàn)實世界范圍內(nèi)提供了有效和實時的策略。

? 我們提出了一個不完整信息的利用框架，從而在信息不完整的情況下取得了良好的性能，接近現(xiàn)實世界。

? 我們設(shè)計了一個基于真實世界數(shù)據(jù)和疾病模型的大流行病傳播模擬器。我們根據(jù)真實世界情況證明其準確性，在此基礎(chǔ)上我們使用模擬器作為實驗平臺。我們在不同環(huán)境下的兩個城市進行了廣泛的實驗，結(jié)果表明我們的方法比所有基線平均高出 14.25%。

?2 preliminary

2.1 疾病模型

在SEIR的基礎(chǔ)上，本文提出了一個八狀態(tài)模型：

S	易感人群 (Susceptible)，指未得病者，但缺乏免疫能力，與感染者接觸后容易受到感染
E	暴露人群 (Exposed)，指接觸過感染者，但暫無能力傳染給其他人的人，對潛伏期長的傳染病適用
Iu	已經(jīng)感染疾病，但是沒有檢測的人。這些人的出行不受任何限制
It	已經(jīng)感染疾病，同時被檢測出疾病的人。這些人的出行被限制在某一個區(qū)域內(nèi)
Ia	已經(jīng)感染疾病，但是疾病監(jiān)測沒有檢測出陽性的人
Ih	被送醫(yī)治療的感染者
R	康復人群（recovered）
D	死亡人群（dead）

圖1展示了本文的SEIR模型中各狀態(tài)之間的轉(zhuǎn)化情況

β	每一個感染狀態(tài)的人（Iu+It+Ia+Ih），在單位時間內(nèi)，通過和S狀態(tài)的人之間的交互（I-S contact），導致的E狀態(tài)人的增加數(shù)量——>這個衡量了疾病的傳染情況
	每一個E狀態(tài)的人，在單位時間內(nèi)，通過和S狀態(tài)的人之間的交互（E-S contact），導致的E狀態(tài)人的增加數(shù)量
ε	每一個E狀態(tài)的人，在單位時間內(nèi)，變成各個I狀態(tài)的人的概率
α	每一個I狀態(tài)的人，在單位時間內(nèi)，變成各個D狀態(tài)的人的概率
μ	每一個I狀態(tài)的人，在單位時間內(nèi)，變成各個R狀態(tài)的人的概率

?2.2 醫(yī)療資源

本文主要考慮兩種醫(yī)療資源：床位和醫(yī)用口罩

我們研究一個有N人口的城市，其中我們根據(jù)路網(wǎng)結(jié)構(gòu)劃分成M個區(qū)域（每個區(qū)域的人口是)

我們同時定義了以下的表示

	Total Bed Number	所有醫(yī)院可以提供的床位總和
	Available Bed Number	在時刻t，可用的床位的數(shù)量
	Total Mask Number	我們假設(shè)每一個人每天消耗一個醫(yī)用口罩是每天一個城市醫(yī)用口罩的供應量?
	Remaining Mask Number	在時刻t，剩余可用的醫(yī)用口罩
γ	Mask Efficacy Factor	醫(yī)用口罩有效過濾病毒的比例
	mask coverage percentage	口罩覆蓋率

即疾病原始的感染率為β0

那么如果有口罩之后，各個區(qū)域在時刻t的實際感染率為：

表示戴了口罩，同時口罩有效過濾病毒的比例，這一部分是可以抵御病毒的比例

?2.3 問題描述

? ? ? ? 我們考慮醫(yī)療資源極度短缺的情況。在時刻t，當小于人們所需要的口罩數(shù)，小于醫(yī)院需要的床位數(shù)。我們需要找到實時最高效的對M個區(qū)域的分配方案，這種分配方案可以有最少的損失。

? ? ? ? 經(jīng)過T天的傳播之后，流行病帶來的損失可以由以下四種評估方式評定：

累計感染人數(shù)	在T天內(nèi)，所有被感染過的人（包括死亡、康復和現(xiàn)在仍然在感染狀態(tài)的人
累計死亡人數(shù)	在T天內(nèi)，所有死亡人數(shù)
最大日增感染人數(shù)	在T天內(nèi)，日增感染人數(shù)的最大值
最大日增死亡人數(shù)	在T天內(nèi)，日增死亡人數(shù)的最大值

?????????前面的兩個衡量了疾病的嚴重程度，后兩個衡量了基本的傳播速度

2.3.1 醫(yī)療資源分配問題定義

? ? ? ? 在時刻T，給定一個由M塊區(qū)域的城市，每塊區(qū)域由人口組成。給定時刻t，可用的床位的數(shù)量和時刻t，剩余可用的醫(yī)用口罩，以及目前的傳染病傳播情況，我們的目標是最小化疾病造成的損失，找到每個區(qū)域最佳的病床和醫(yī)用口罩的分配策略和，其中分配方案滿足

? ? ? ? 根據(jù)2.2的描述，我們可以計算時刻t，某一區(qū)域i的實際感染率：

3 方法

3.1 系統(tǒng)全覽

?整個模型由兩部分組成:

1，不完全信息的使用：從環(huán)境中的不完全信息中重構(gòu)完整信息

2，層次化強化學習模型：從第一步重構(gòu)的完整信息中找到實時策略

代碼部分：?https://github.com/KYHKL-Q/Hierarchical-RL

?3.2 不完全信息的使用

?3.2.1 疾病傳播信息的定義

????????在一個有M塊區(qū)域的城市中，某一個疾病狀態(tài)X（X在這幾個狀態(tài)中）是一個M維的向量，我們記為

????????表示在區(qū)域i中，狀態(tài)為X的人的數(shù)量?

3.2.2 模型介紹

? ? ? ? 在現(xiàn)實問題中，或者所有這8個狀態(tài)的疾病傳播信息是很難的。換言之，我們有的都是不完全的信息。

? ? ? ? 根據(jù)實際的情況，我們可以獲得類似于It（已經(jīng)感染疾病，同時被檢測出疾病的人。），Ih（被送醫(yī)治療的感染者），D（死亡人數(shù)）的疾病傳播信息；

????????但是像S（易感人群）、E（暴露人群）和Iu（已經(jīng)感染疾病，但是沒有檢測的人。）的疾病傳播信息則不太好求得。

????????R狀態(tài)（康復人群）也不太好求得，因為有些只有輕微癥狀的人在尚未被檢測陽性或者送醫(yī)之前，在家里就已經(jīng)康復了。

? ? ? ? 在現(xiàn)實世界中，S狀態(tài)（易感人群）的人占多數(shù)，與此同時Ia狀態(tài)（已經(jīng)感染疾病，但是疾病監(jiān)測沒有檢測出陽性的人）的人則很少。

? ? ? ? 因此，我們可以這么認為：除了狀態(tài)S狀態(tài)（易感人群）和Ia狀態(tài)（已經(jīng)感染疾病，但是疾病監(jiān)測沒有檢測出陽性的人）之外，E（暴露人群）、Iu（已經(jīng)感染疾病，但是沒有檢測的人。）、It（已經(jīng)感染疾病，同時被檢測出疾病的人。）、Ih（被送醫(yī)治療的感染者）、R（康復人群）和D（死亡人群）有著很廣泛的波動范圍，這幾個狀態(tài)的疾病傳播信息可以很好地反映疾病的整體情況。這幾個狀態(tài)在幫助RL agent制定決策的時候起著很大的作用。

? ? ? ? 因此，不完整信息使用的目標是：通過可以觀測得到的狀態(tài)It，Ih和D，推測未知的狀態(tài)E，Iu和R的情況。

? ? ? ? 我們利用GRU建模時間序列的能力，來進行信息的重構(gòu)。

? ? ? ? （注：這張圖有問題，第三個應該是Ih）

? ? ? ? GRU-RNN模型整體由三個分支組成，每個分支由1024個GRU組成，同時用Tanh作為激活函數(shù)。（三個分支是一個狀態(tài)對一個呢？還是三個對三個呢？看完代碼我再補上）

? ? ? ? 在每個分支的末尾，我們同時設(shè)計了一個1024*M（M是區(qū)域的數(shù)量）的全連接層。以便于將GRU中的隱層狀態(tài)投影到最終的輸出上。

? ? ? ? 由于輸入和輸出都是在特定區(qū)域，特定狀態(tài)的人群的數(shù)量，這個數(shù)字是很大的，經(jīng)過Tanh激活之后可能區(qū)別不大。于是我們在輸入之后，輸出之前分別研究了一個1：1000的縮放層，將數(shù)值放縮至一個合理的范圍。

? ? ? ? 我們使用BPTT和Adam來進行訓練，獲得了很好的收斂結(jié)果。

3.3?分層強化學習

3.3.1 決策空間分解

????????典型RL方法在解決醫(yī)療資源配置問題時面臨的一個巨大挑戰(zhàn)是現(xiàn)實情況下面臨的過大的行動空間。

????????一個城市通常有數(shù)百個地區(qū)（地區(qū)數(shù)記為M），有各種各樣的醫(yī)療資源可供分配(資源種類的數(shù)量記為𝐾)。

????????因此，輸出策略應該是一個形狀為𝑀×𝐾的矩陣，它位于一個高維空間，導致一個非常大的行動空間。

????????此外，各要素之間存在約束:各類醫(yī)療資源的總可用量是固定的，這增加了RL agent做出正確決策的難度。

????????為了解決這個問題，我們設(shè)計了一個分解的行動空間來進行決策，而不是直接給出上面描述的矩陣。

????????對各類醫(yī)療資源，首先給出各地區(qū)的顯著性排序。

????????我們設(shè)計了若干排序原則，包括根據(jù)感染人數(shù)、人口密度、區(qū)域人口流動強度及其組合進行排序。

????????決策的第一步是選擇一個排序原則，該原則位于一個離散的行動空間，并給出顯著性排序。

????????

????????第二步是給出一個滿足因子，一個介于0和1之間的浮點數(shù)，記為f。

????????在醫(yī)療資源配置的過程中，我們按照給定的顯著性等級來考慮區(qū)域。我們用𝑈𝑖表示𝑖地區(qū)需要的某一種醫(yī)療資源的數(shù)量，將這類醫(yī)療資源的𝑓×𝑈𝑖分配給該地區(qū)，然后再轉(zhuǎn)到下一個地區(qū)，即只滿足其需求的𝑓。（并不一定排序在前面的f就一定大）

????????當沒有更多的醫(yī)療資源時，分配過程就結(jié)束了。

????????因此，決策的第二部分是給出浮點數(shù)，因此它位于一個連續(xù)的動作空間中

????????我們將決策過程分解為兩個步驟，將超大的行動空間分解為相對較小的離散和連續(xù)兩個步驟，使得RL agent能夠做出有效的決策。

此外，有兩件事值得一提:

?????????在不同種類的醫(yī)療資源中，離散行動和連續(xù)行動都是獨立的，即不同種類的醫(yī)療資源可以根據(jù)不同的顯著性排名和滿意度因子進行配置。

?????????每種醫(yī)療資源的離散和連續(xù)行動都隨時間而變化，即實時策略。這兩點確保了行動有足夠的自由度，從而保持了無數(shù)的可能性，從而有可能實現(xiàn)最大限度地減少該流行病造成的損害的目標。

3.2.2 獎勵函數(shù)

????????在RL 訓練中，我們使用一個特別設(shè)計的獎勵函數(shù)來衡量流行病傳播情況的嚴重性。

????????我們用𝑠𝑖表示在𝑖時間步后的流行病傳播情況。

????????表示在狀態(tài)si的時候，各個區(qū)域狀態(tài)為X的人的總數(shù)

? ? ? ? ?于是，我們定義時間片i的單步獎勵函數(shù)

?????????

? 其中：

C是一個常數(shù)

E是暴露人群

論文里是寫的Iut，但我個人覺得這邊應該是Iu

Iu+It表達的是感染了但是沒有檢測的人+感染了同時檢測出陽性的人

????????當?時，也就是沒有新增的時候 reward 最大，為C；只要有新增，那么括號里面的內(nèi)容就會小于1，那么reward就會小于C

? ? ? ? 我們同時定義了長期的獎勵函數(shù)Fi?

????????

?表示未來獎勵的折現(xiàn)因子?

? ? ? ? 在有限步的問題中，求和運算可以在一個特定的時間節(jié)點終止

3.3.3 網(wǎng)絡結(jié)構(gòu)

????????在離散動作空間中（前面的第一步，算排序），每一種醫(yī)療資源使用一個DQN;

DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

????????在連續(xù)動作空間中（前面的第二步，算f值），每一種醫(yī)療資源使用一對Actor-Critic網(wǎng)絡

強化學習筆記：Actor-critic_UQI-LIUWJ的博客-CSDN博客

?????????這些網(wǎng)絡的詳細結(jié)構(gòu)如圖4所示，張量的形狀隨著研究城市區(qū)域數(shù)量的變化而變化。

?????????所有網(wǎng)絡都使用Leaky-ReLU作為激活函數(shù)。

????????DQN采用流行病傳播情況的重建信息，并對每個排序原則給出估計的長期回報，同時選擇回報最高的原則進入實時策略。

????????連續(xù)動作空間中的actor網(wǎng)絡接受重建的信息，并給出最佳的滿意度因子（f）【即action】。

????????為了確保滿足因子限制在0到1之間，我們在網(wǎng)絡的末端設(shè)置一個Sigmoid-Clip層，如下所示:

????????

?????????其中𝛿為手動設(shè)置的滿意度因子下界，可近似設(shè)置為該城市醫(yī)療資源總量除以人口規(guī)模。

?????????連續(xù)行動空間中的critic網(wǎng)絡（critic network）只作用于訓練過程。

????????它吸收環(huán)境信息和actor網(wǎng)絡給出的滿意度因子，輸出給定滿意因子的估計長期獎勵。

? ? ? ? 換句話說，critic network通過policy gradient對actor network進行有監(jiān)督訓練。

?????????特別地，我們在輸入流行病傳播信息后立即設(shè)計重新排序?qū)?#xff0c;使輸入載體中的元素進行交換。

????????這些層的作用是最大化相鄰元素之間的關(guān)聯(lián)度，從而有利于卷積層提取特征。（卷積層時DQN還是actor-critic在用？看完代碼補充）

????????關(guān)聯(lián)度是通過相應區(qū)域之間的人口流動強度來衡量的(定義見章節(jié)4.1)。

????????我們將輸入向量中的𝑀個元素表示為𝑉𝑖，𝑖= 1,2，…𝑀并使用𝐶(𝑖𝑗) 𝑖≠𝑗之間的關(guān)系程度𝑉𝑖和𝑉𝑗

????????因此，問題可以表述為:

? ? ? ? ?可以證明問題2和TSP (NP完全問題）是等價的，因此沒有多項式時間來精確地計算之。

????????我們使用隨機方法搜索1億個可能的重排序序列(𝑀!總可能性)，并選擇最好的一個。雖然不是很精確，但我們得到了一個足夠好的解決方案，以滿足卷積特征提取的需要。

3.4 訓練算法?

????????現(xiàn)有的研究主要集中在離散動作空間和連續(xù)動作空間中訓練RL agent的算法上。

????????然而，在我們的分解動作空間設(shè)計中，需要一種算法來訓練一個RL agent同時在連續(xù)和離散動作空間中執(zhí)行動作，這一點一直未被探索。

????????我們通過對廣泛應用的DQN訓練算法和DDPG算法進行改進，提出了一種新的算法。

????????我們復制每個網(wǎng)絡生成相應的目標網(wǎng)絡，并在訓練過程中對網(wǎng)絡進行軟替換?soft replacement。

????????我們在訓練中也采用經(jīng)驗重播 experience replay。

????????值得一提的是，該算法可用于訓練具有任意𝐷個離散動作和任意𝐶個連續(xù)動作的RL agent。

????????在本篇文論中，我們考慮兩種醫(yī)療資源，所以此時𝐶=𝐷= 2?

? ? ? ? 我們使用?來表示參數(shù)為的DQN；
????????使用表示參數(shù)為的連續(xù)actor網(wǎng)絡。

? ? ? ? 使用表示參數(shù)為的連續(xù)critic網(wǎng)絡

? ? ? ? 其中

? ? ? ? 其中代表了對應的目標網(wǎng)絡。

????????

? ? ? ? 我們使用表示時刻t的離散動作，用表示時刻t的連續(xù)動作

? ? ? ? ?表示時刻t的流行病傳播信息

????????表示時刻t的reward?

?????????當使用來自經(jīng)驗重放緩沖區(qū)的𝑁樣本的mini-batch處理來更新權(quán)重時，記為

?????????

（在狀態(tài)時，如果我們采取離散動作以及連續(xù)動作，那么我們會得到獎勵，進入后續(xù)的狀態(tài)）

?我們使用如下方式計算loss

（總的reward，DQN和actor-critic分別的reward）

使用TD的方式進行更新

?4 實驗部分

4.1 流行病傳播模擬

????????由于我們不能任意地在現(xiàn)實世界中設(shè)定大流行爆發(fā)，因此訓練一個RL agent在現(xiàn)實世界大流行傳播中檢驗我們的方法是不現(xiàn)實的。因此，我們設(shè)計了一個傳染病傳播模擬器，包括疾病模型和人口流動模型。

????????我們采用2.1節(jié)中提到的COVID-19的八狀態(tài)疾病模型，同時使用醫(yī)學研究中描述COVID-19特征的參數(shù)[7,8,10,16,28]，以保證疾病建模的真實性。

????????如3.1節(jié)所述，我們根據(jù)道路網(wǎng)絡將城市劃分為𝑀區(qū)域，這些區(qū)域很好地匹配了城市中的現(xiàn)實世界功能區(qū)。

????????該城市的總?cè)丝谝?guī)模(記為𝑁)可在政府的官方網(wǎng)站上查詢。

????????人口流動建模是基于真實世界的流動數(shù)據(jù)，通過與互聯(lián)網(wǎng)服務提供商合作，收集用戶訪問基于位置的服務的GPS坐標。

????????考慮到隱私保護，我們消除了用戶的詳細信息，并保持以下數(shù)據(jù):

時刻𝑡從地區(qū)𝑖到地區(qū)𝑗的用戶數(shù)量。
時刻t在地區(qū)i的總用戶人數(shù)

????????我們收集了北京和上海兩個城市的數(shù)據(jù)，詳細信息如表1所示。注意，在北京，我們只考慮市中心地區(qū)，稍后簡稱為Beijing。

????????我們計算在時間維度上的平均值，得到𝑖區(qū)域內(nèi)的平均用戶數(shù)(表示為)。

????????然后，我們通過比較𝑁和各區(qū)域，來估計各區(qū)域內(nèi)的人口規(guī)模，因為某一區(qū)域內(nèi)互聯(lián)網(wǎng)服務用戶的空間分布與整體人口分布相似。（按照各區(qū)域的比例分配N）

????????因此，𝑖地區(qū)的人口密度也是可求得的，通過計算該地區(qū)的面積。

???????我們可以通過和的比率來估計人口流動強度，即從區(qū)域𝑖在時間𝑡前往區(qū)域𝑗的可能性，記為。請注意，由于早晚、工作日和周末之間的人口流動性不同而隨時間變化。

????????模擬過程如算法 2 所示，其中每個時間步長為 30 分鐘，以提供高時間分辨率的結(jié)果。

?????????我們評估我們實施的模擬器的精度，確保它作為實驗平臺表現(xiàn)良好。

???????? 我們在北京市中心進行了為期 2 周的模擬，然后將結(jié)果與 2020 年 6 月北京新發(fā)地疫情爆發(fā)期間的官方報告 1進行了比較。

????????考慮到模擬的隨機性和模擬中的平均感染病例數(shù)，我們進行了 10 次模擬在圖 5 中與現(xiàn)實世界中的情況一起繪制。

????????結(jié)果顯示，模擬和現(xiàn)實世界情況之間的決定系數(shù) = 0.984。它表明模擬器可以精確地模擬現(xiàn)實世界的情況，這可以支持我們的分層強化學習方法的評估。

?4.2 實驗配置

????????為了全面檢查我們的方法的性能，我們設(shè)計了三個實驗，在兩個城市的各種初始感染情況下進行。設(shè)置如表 2 所示，在每個實驗中，𝐼0 初始感染病例平均分布到 𝐾個初始區(qū)域。

???????? 我們模擬了四個月（120天）的疫情傳播過程，在此期間，我們將前兩個月設(shè)置為自由傳播期，后兩個月采取應對措施。

???????? 我們每 24 小時調(diào)整一次實時策略，并將兩個城市為治療 COVID-19 患者 ?配備的病床總數(shù)𝑁𝐵設(shè)置為 10000。

????????我們設(shè)置了兩個城市的每日外科口罩供應數(shù)量 ( 𝑁𝑀 ) 略低于人口規(guī)模的 10%，這勾勒出醫(yī)療資源稀缺的情況。

????????我們將口罩功效因子 𝛾 固定為 0.9，這是外科口罩的典型值 [3]。

????????實驗 1 和 2 之間的對比顯示了聚集爆發(fā)和分散爆發(fā)之間的差異，而實驗 1 和 3 之間的對比涵蓋了完全不同城市的情況。

4.3 對比試驗

????????我們將我們的方法與幾個bbseline進行比較，包括公共衛(wèi)生領(lǐng)域的專家解決方案和基于 RL 的方法。

????????專家解決方案包括：

? 無醫(yī)療：未分配醫(yī)療資源的情況，作為空白對照組。

? 專家嚴重性[1]：根據(jù)大流行傳播的嚴重性順序分配醫(yī)療資源。感染病例較多的地區(qū)具有絕對優(yōu)先權(quán)。 ?

? 專家人口[9]：根據(jù)人口密度分配醫(yī)療資源。人口密度較高的地區(qū)具有絕對優(yōu)先權(quán)。

????????強化學習方法以及強化學習與專家解決方案的結(jié)合如下：

? DQN Greedy：一種非分層強化學習方法，應用一個 DQN 來選擇每種醫(yī)療資源的重要性排序原則。排名較高的地區(qū)具有絕對優(yōu)先權(quán)。

? DQN 專家[5]：DQN 和專家解決方案的組合。公共衛(wèi)生研究表明，如果口罩覆蓋率達到大約 86%，則可以有效控制 COVID-19 的大流行。因此，DQN 用于選擇外科口罩的排名原則，而滿意度因子固定為 0.86。對醫(yī)院病床的操作與 DQN Greedy相同。

????????這些baseline 方法涵蓋了公共衛(wèi)生研究中的權(quán)威專家解決方案和典型的 RL 解決方案。此外，通過結(jié)合 RL 和專家解決方案，最后一個基線優(yōu)于前一個基線，結(jié)果證明是最強的。

4.4 主要結(jié)果和分析

????????我們基于模擬器評估訓練好的模型。?考慮到隨機性，我們將所有模擬重復 10 次。

???????? 首先，我們考慮完美的信息情況，我們的方法直接從環(huán)境中獲取所有 8 個狀態(tài)的精確疾病傳播信息，而無需重建信息，基線方法也是如此。

???????? 由第 2.3 節(jié)中定義的四個指標測量的結(jié)果（越低越好）如表 3 所示，其中我們將指標值除以人口規(guī)模，括號中顯示了 10 次模擬中的標準偏差。

????????事實證明，我們的方法在所有 3 個實驗中都優(yōu)于所有基線方法。

????????然后我們研究了信息不完善的情況，我們僅使用 3 個狀態(tài)【It（已經(jīng)感染疾病，同時被檢測出疾病的人。）、Ih（被送醫(yī)治療的感染者）和𝐷（死亡人數(shù)）】的信息來訓練基于 DQN 的基線，并且由于缺乏感染病例的信息，專家嚴重性無法發(fā)揮作用。

????????我們的方法通過信息重建工作，在不完善的信息中利用框架中RNN層數(shù)的影響如圖6所示。準確率是相對誤差小于30％的輸出值的百分比。

???????? 我們注意到，在北京和上海的情況下，由于使用超過 4 層的過擬合，準確率沒有明顯的提高甚至下降，而隨著層數(shù)的增加，訓練時間大大增加。因此，我們使用 4 個 RNN 層，足夠用于信息重建，同時可以兼顧到有效性和準確性。

????????

?以相同指標衡量的最終結(jié)果如表 4 所示。

????????圖 7 顯示了我們的方法和基線之間的比較。我們將最強基線（DQN 專家）的性能標準化為 1.0，并通過所有 4 個指標的平均值計算大流行造成的相對損害。

????????

????????所有結(jié)果證明，我們的方法可以提供更有效的實時醫(yī)療資源分配策略，大大減少了大流行造成的損失。

????????在數(shù)量上，與最強基線相比，在完美信息情況下的平均性能增益為 11.00%，而在不完美信息情況下為 14.25%。

????????不完美信息下更高的性能增益證明了不完美信息利用的設(shè)計在不完美信息下帶來了額外的好處，更接近現(xiàn)實世界的情況。

????????我們以實驗 1 中的病床分配為例，將我們的方法應用 10 天和 30 天后的策略可視化在圖 8 的北京地圖上，顏色越深表示醫(yī)療資源越多。它表明，在大流行傳播過程中，策略會有所不同，并且一些關(guān)鍵區(qū)域被分配了更多的資源，即高效和實時的策略。 ?

?4.5 訓練過程的收斂性和有效性

???????我們在北京和上海的數(shù)據(jù)集上訓練 RL 智能體，北京的訓練過程如圖 9 所示。由于分解動作空間的設(shè)計，大大簡化了決策過程，因此輕量級網(wǎng)絡可以滿足我們的需求。結(jié)合我們的訓練算法，我們可以高效地進行訓練過程。在沒有高性能 GPU 的筆記本電腦上，平均每一步只消耗 8.26 秒，而在筆記本電腦上，整個 100 步不到 15 分鐘。第 3.4 節(jié)中定義的訓練損失在訓練過程中迅速下降，表明收斂性良好。

????????

總結(jié)

以上是生活随笔為你收集整理的论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记： Modeling Extre
下一篇： shp格式文件简介

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation

0 摘要

1 introduction

?2 preliminary

2.1 疾病模型

?2.2 醫(yī)療資源

?2.3 問題描述

2.3.1 醫(yī)療資源分配問題定義

3 方法

3.1 系統(tǒng)全覽

?3.2 不完全信息的使用

?3.2.1 疾病傳播信息的定義

3.2.2 模型介紹

3.3?分層強化學習

3.3.1 決策空間分解

3.2.2 獎勵函數(shù)

3.3.3 網(wǎng)絡結(jié)構(gòu)

3.4 訓練算法?

?4 實驗部分

4.1 流行病傳播模擬

?4.2 實驗配置

4.3 對比試驗

4.4 主要結(jié)果和分析

?4.5 訓練過程的收斂性和有效性

總結(jié)