當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[论文]深度强化学习在超视距空战机动规划的应用

發(fā)布時(shí)間：2024/1/8 编程问答 68 豆豆

生活随笔收集整理的這篇文章主要介紹了 [论文]深度强化学习在超视距空战机动规划的应用小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Application of Deep Reinforcement Learning in Maneuver Planning of Beyond-Visual-Range Air Combat

構(gòu)建基本作戰(zhàn)環(huán)境：飛行運(yùn)動(dòng)模型、相對運(yùn)動(dòng)模型和導(dǎo)彈攻擊模型
智能體與環(huán)境交互的機(jī)動(dòng)決策框架
設(shè)計(jì)agent訓(xùn)練的獎(jiǎng)勵(lì)函數(shù)
提出了感知情境層和值擬合層來取代DQN中的策略網(wǎng)絡(luò)

超視距空戰(zhàn)難點(diǎn)

導(dǎo)彈作戰(zhàn)戰(zhàn)術(shù)機(jī)制依靠專業(yè)飛行員經(jīng)驗(yàn)
真實(shí)訓(xùn)練數(shù)據(jù)少

針對導(dǎo)彈攻擊區(qū)域，提出導(dǎo)彈殺傷范圍
提出基本獎(jiǎng)勵(lì)值和態(tài)勢獎(jiǎng)勵(lì)值
改進(jìn)的DQN，利用LSTM單元構(gòu)建感知情境網(wǎng)絡(luò)

2 空戰(zhàn)環(huán)境設(shè)計(jì)

飛行運(yùn)動(dòng)模型

$\dot{x}, \dot{y}, \dot{z}$ 是速度在每個(gè)軸上的分量。
$\gamma, \psi$ 分別表示飛機(jī)的俯仰角和偏航角。

機(jī)體坐標(biāo)系
原點(diǎn)O取在飛機(jī)質(zhì)心處, X軸指向機(jī)頭, Y軸指向機(jī)身上方, Z指向機(jī)身右方
飛行軌跡坐標(biāo)系
X軸指向速度方向，Y軸垂直于地平面

（1）俯仰角 $\gamma$ ：機(jī)體軸與地平面（水平面）之間的夾角，飛機(jī)抬頭為正。
（2）偏航角（方位角） $\psi$ ：機(jī)體x軸在水平面上的投影與地x軸之間的夾角，以機(jī)頭右偏為正。
（3）滾轉(zhuǎn)角（傾斜角） $\mu$ ：飛機(jī)對稱面繞機(jī)體軸轉(zhuǎn)過的角度，右滾為正。

相對運(yùn)動(dòng)模型

紅藍(lán)兩機(jī)相對向量
方位角：相對向量與自身速度（地面坐標(biāo)系）的夾角
目標(biāo)入射角：相對向量與敵機(jī)速度（地面坐標(biāo)系）的夾角

導(dǎo)彈攻擊模型

描述導(dǎo)彈攻擊區(qū)域的兩種方式

attack envelope

限制條件：

導(dǎo)彈最大和最小飛行高度
導(dǎo)彈在遇到目標(biāo)前的最小速度
安全距離極限
導(dǎo)彈的最大飛行時(shí)間

劃分：

最大攻擊范圍
不可逃脫范圍
安全范圍（最小攻擊范圍）
attack envelope的劃分是飛行狀態(tài)、導(dǎo)彈發(fā)射角度、目標(biāo)進(jìn)入角度、目標(biāo)飛機(jī)飛行狀態(tài)等的函數(shù)。

killing envelope

當(dāng)攻擊機(jī)在可攻擊范圍內(nèi)發(fā)射導(dǎo)彈時(shí)，目標(biāo)機(jī)一般采取一系列過載機(jī)動(dòng)以避免導(dǎo)彈跟蹤，因此為了降低擊中概率，我們根據(jù)不同的過載機(jī)動(dòng)提出了四種killing envelope。

最大擊中范圍
敵機(jī)90°側(cè)轉(zhuǎn)時(shí)能擊中的范圍
敵機(jī)180°側(cè)轉(zhuǎn)時(shí)能擊中的范圍
最小安全發(fā)射范圍

3 空戰(zhàn)模型

空戰(zhàn)決策框架

強(qiáng)化學(xué)習(xí)通常被建模成一個(gè)馬爾可夫決策過程（Markov decision process，MDP）的問題
agent：獨(dú)立訓(xùn)練
環(huán)境：狀態(tài)轉(zhuǎn)換模型、空戰(zhàn)獎(jiǎng)勵(lì)模型、終止判斷模型(是否到達(dá)終止條件)

agent構(gòu)造自己的感知變量 $s^{R}_{t}, s^{B}_{t}$

狀態(tài)空間

agent state由以下三種狀態(tài)表示：

獨(dú)立狀態(tài)：位置和速度
相對狀態(tài)：相對距離、相對速度和相對角度
能量狀態(tài)：動(dòng)能、勢能、影響導(dǎo)彈殺傷距離的參數(shù)表示

對狀態(tài)進(jìn)行歸一化處理

最小-最大規(guī)范化對原始數(shù)據(jù)進(jìn)行線性變換。
z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標(biāo)準(zhǔn)差規(guī)范化。

動(dòng)作空間

離散動(dòng)作空間：擴(kuò)展動(dòng)作

獎(jiǎng)懲

蒙特卡洛搜索確定root node的獎(jiǎng)勵(lì)值
當(dāng)前狀態(tài)獎(jiǎng)勵(lì)分為：

邊界獎(jiǎng)勵(lì)：當(dāng)臨近邊界時(shí)，由蒙特卡洛搜索確定。對所有N步的搜索算出出界的概率，通過該概率計(jì)算出獎(jiǎng)勵(lì)。
角度獎(jiǎng)勵(lì)：鼓勵(lì)交戰(zhàn)
距離獎(jiǎng)勵(lì)：D1小于導(dǎo)彈的最小攻擊距離，D2大于導(dǎo)彈的最大攻擊距離。
導(dǎo)彈攻擊獎(jiǎng)勵(lì)：通過仿真獲得擊敗敵方的概率和被敵方擊中的概率，從而得到導(dǎo)彈攻擊獎(jiǎng)勵(lì)。

4 LSTM-DQN算法

使用參數(shù) $\theta$ 近似動(dòng)作價(jià)值函數(shù)
policy網(wǎng)絡(luò)使用 $\epsilon - greedy$ 方法，用于計(jì)算agent的當(dāng)前動(dòng)作。
target網(wǎng)絡(luò)：target函數(shù)，用于訓(xùn)練參數(shù)。更新：間隔一段時(shí)間進(jìn)行更新。目的：保持算法穩(wěn)定性。

DQN的損失函數(shù)定義為目標(biāo)值與預(yù)測值的均方差，同時(shí)通過更新權(quán)重 $\theta$ 使損失最小化。

采用自適應(yīng)梯度下降法對策略網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練，經(jīng)過一定次數(shù)的訓(xùn)練集后，應(yīng)用參數(shù)對目標(biāo)網(wǎng)絡(luò)進(jìn)行更新。
在訓(xùn)練過程中，agent容易產(chǎn)生大量無價(jià)值的樣本。針對這一問題，我們根據(jù)超視距空戰(zhàn)的經(jīng)驗(yàn)設(shè)計(jì)了一個(gè)專家過濾器，進(jìn)行初步的判斷和選擇。將過濾后的樣本與原始樣本按一定比例整合到體驗(yàn)回放池中進(jìn)行訓(xùn)練。

policy network

感知情境層：
對于采樣的所有數(shù)據(jù)，由運(yùn)動(dòng)模型獲得后續(xù)T個(gè)連續(xù)狀態(tài)變量
價(jià)值函數(shù)擬合層：
輸入為LSTM的輸出，輸出為9個(gè)動(dòng)作的概率

空戰(zhàn)仿真

數(shù)據(jù)分析

5 比較與結(jié)論

有效性比較

通過獎(jiǎng)勵(lì)和獲勝概率兩個(gè)標(biāo)準(zhǔn)來衡量，決策方案的有效性。獎(jiǎng)勵(lì)是對智能體當(dāng)前狀態(tài)和機(jī)動(dòng)動(dòng)作的評價(jià)，反映了與對手的相對優(yōu)勢。另一個(gè)是獲勝概率，它可以從測試實(shí)驗(yàn)的結(jié)果中計(jì)算出來。
與AC方法和DDPG方法比較。

總結(jié)

以上是生活随笔為你收集整理的[论文]深度强化学习在超视距空战机动规划的应用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： mysql 自动化运维开发_Python
下一篇：【办公软件有哪些】万彩办公大师教程丨PD