[论文]深度强化学习在超视距空战机动规划的应用
Application of Deep Reinforcement Learning in Maneuver Planning of Beyond-Visual-Range Air Combat
構(gòu)建基本作戰(zhàn)環(huán)境:飛行運(yùn)動(dòng)模型、相對運(yùn)動(dòng)模型和導(dǎo)彈攻擊模型
智能體與環(huán)境交互的機(jī)動(dòng)決策框架
設(shè)計(jì)agent訓(xùn)練的獎(jiǎng)勵(lì)函數(shù)
提出了感知情境層和值擬合層來取代DQN中的策略網(wǎng)絡(luò)
超視距空戰(zhàn)難點(diǎn)
- 導(dǎo)彈作戰(zhàn)戰(zhàn)術(shù)機(jī)制依靠專業(yè)飛行員經(jīng)驗(yàn)
- 真實(shí)訓(xùn)練數(shù)據(jù)少
針對導(dǎo)彈攻擊區(qū)域,提出導(dǎo)彈殺傷范圍
提出基本獎(jiǎng)勵(lì)值和態(tài)勢獎(jiǎng)勵(lì)值
改進(jìn)的DQN,利用LSTM單元構(gòu)建感知情境網(wǎng)絡(luò)
2 空戰(zhàn)環(huán)境設(shè)計(jì)
飛行運(yùn)動(dòng)模型
x ˙ , y ˙ , z ˙ \dot{x}, \dot{y}, \dot{z} x˙,y˙?,z˙ 是速度在每個(gè)軸上的分量。
γ , ψ \gamma, \psi γ,ψ 分別表示飛機(jī)的俯仰角和偏航角。
- 機(jī)體坐標(biāo)系
原點(diǎn)O取在飛機(jī)質(zhì)心處, X軸指向機(jī)頭, Y軸指向機(jī)身上方, Z指向機(jī)身右方 - 飛行軌跡坐標(biāo)系
X軸指向速度方向,Y軸垂直于地平面
(1)俯仰角 γ \gamma γ: 機(jī)體軸與地平面(水平面)之間的夾角,飛機(jī)抬頭為正。
(2)偏航角(方位角) ψ \psi ψ:機(jī)體x軸在水平面上的投影與地x軸之間的夾角,以機(jī)頭右偏為正。
(3)滾轉(zhuǎn)角(傾斜角) μ \mu μ:飛機(jī)對稱面繞機(jī)體軸 轉(zhuǎn)過的角度,右滾為正。
相對運(yùn)動(dòng)模型
紅藍(lán)兩機(jī)相對向量
方位角:相對向量與自身速度(地面坐標(biāo)系)的夾角
目標(biāo)入射角:相對向量與敵機(jī)速度(地面坐標(biāo)系)的夾角
導(dǎo)彈攻擊模型
描述導(dǎo)彈攻擊區(qū)域的兩種方式
attack envelope
限制條件:
- 導(dǎo)彈最大和最小飛行高度
- 導(dǎo)彈在遇到目標(biāo)前的最小速度
- 安全距離極限
- 導(dǎo)彈的最大飛行時(shí)間
劃分:
- 最大攻擊范圍
- 不可逃脫范圍
- 安全范圍(最小攻擊范圍)
attack envelope的劃分是飛行狀態(tài)、導(dǎo)彈發(fā)射角度、目標(biāo)進(jìn)入角度、目標(biāo)飛機(jī)飛行狀態(tài)等的函數(shù)。
killing envelope
當(dāng)攻擊機(jī)在可攻擊范圍內(nèi)發(fā)射導(dǎo)彈時(shí),目標(biāo)機(jī)一般采取一系列過載機(jī)動(dòng)以避免導(dǎo)彈跟蹤,因此為了降低擊中概率,我們根據(jù)不同的過載機(jī)動(dòng)提出了四種killing envelope。
- 最大擊中范圍
- 敵機(jī)90°側(cè)轉(zhuǎn)時(shí)能擊中的范圍
- 敵機(jī)180°側(cè)轉(zhuǎn)時(shí)能擊中的范圍
- 最小安全發(fā)射范圍
3 空戰(zhàn)模型
空戰(zhàn)決策框架
強(qiáng)化學(xué)習(xí)通常被建模成一個(gè)馬爾可夫決策過程 (Markov decision process,MDP)的問題
agent:獨(dú)立訓(xùn)練
環(huán)境:狀態(tài)轉(zhuǎn)換模型、空戰(zhàn)獎(jiǎng)勵(lì)模型、終止判斷模型(是否到達(dá)終止條件)
agent構(gòu)造自己的感知變量 s t R , s t B s^{R}_{t}, s^{B}_{t} stR?,stB?
狀態(tài)空間
agent state由以下三種狀態(tài)表示:
- 獨(dú)立狀態(tài):位置和速度
- 相對狀態(tài):相對距離、相對速度和相對角度
- 能量狀態(tài):動(dòng)能、勢能、影響導(dǎo)彈殺傷距離的參數(shù)表示
對狀態(tài)進(jìn)行歸一化處理
- 最小-最大規(guī)范化對原始數(shù)據(jù)進(jìn)行線性變換。
- z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標(biāo)準(zhǔn)差規(guī)范化。
動(dòng)作空間
離散動(dòng)作空間:擴(kuò)展動(dòng)作
獎(jiǎng)懲
蒙特卡洛搜索確定root node的獎(jiǎng)勵(lì)值
當(dāng)前狀態(tài)獎(jiǎng)勵(lì)分為:
- 邊界獎(jiǎng)勵(lì):當(dāng)臨近邊界時(shí),由蒙特卡洛搜索確定。對所有N步的搜索算出出界的概率,通過該概率計(jì)算出獎(jiǎng)勵(lì)。
- 角度獎(jiǎng)勵(lì):鼓勵(lì)交戰(zhàn)
- 距離獎(jiǎng)勵(lì):D1小于導(dǎo)彈的最小攻擊距離,D2大于導(dǎo)彈的最大攻擊距離。
- 導(dǎo)彈攻擊獎(jiǎng)勵(lì):通過仿真獲得擊敗敵方的概率和被敵方擊中的概率,從而得到導(dǎo)彈攻擊獎(jiǎng)勵(lì)。
4 LSTM-DQN算法
使用參數(shù) θ \theta θ近似動(dòng)作價(jià)值函數(shù)
policy網(wǎng)絡(luò)使用 ? ? g r e e d y \epsilon - greedy ??greedy方法,用于計(jì)算agent的當(dāng)前動(dòng)作。
target網(wǎng)絡(luò):target函數(shù),用于訓(xùn)練參數(shù)。更新:間隔一段時(shí)間進(jìn)行更新。目的:保持算法穩(wěn)定性。
- DQN的損失函數(shù)定義為目標(biāo)值與預(yù)測值的均方差,同時(shí)通過更新權(quán)重 θ \theta θ使損失最小化。
采用自適應(yīng)梯度下降法對策略網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,經(jīng)過一定次數(shù)的訓(xùn)練集后,應(yīng)用參數(shù)對目標(biāo)網(wǎng)絡(luò)進(jìn)行更新。
在訓(xùn)練過程中,agent容易產(chǎn)生大量無價(jià)值的樣本。針對這一問題,我們根據(jù)超視距空戰(zhàn)的經(jīng)驗(yàn)設(shè)計(jì)了一個(gè)專家過濾器,進(jìn)行初步的判斷和選擇。將過濾后的樣本與原始樣本按一定比例整合到體驗(yàn)回放池中進(jìn)行訓(xùn)練。
policy network
感知情境層:
對于采樣的所有數(shù)據(jù),由運(yùn)動(dòng)模型獲得后續(xù)T個(gè)連續(xù)狀態(tài)變量
價(jià)值函數(shù)擬合層:
輸入為LSTM的輸出,輸出為9個(gè)動(dòng)作的概率
空戰(zhàn)仿真
數(shù)據(jù)分析
5 比較與結(jié)論
有效性比較
通過獎(jiǎng)勵(lì)和獲勝概率兩個(gè)標(biāo)準(zhǔn)來衡量,決策方案的有效性。獎(jiǎng)勵(lì)是對智能體當(dāng)前狀態(tài)和機(jī)動(dòng)動(dòng)作的評價(jià),反映了與對手的相對優(yōu)勢。另一個(gè)是獲勝概率,它可以從測試實(shí)驗(yàn)的結(jié)果中計(jì)算出來。
與AC方法和DDPG方法比較。
總結(jié)
以上是生活随笔為你收集整理的[论文]深度强化学习在超视距空战机动规划的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 自动化运维开发_Python
- 下一篇: 【办公软件有哪些】万彩办公大师教程丨PD