當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

战斗机嵌入式训练系统中的智能虚拟陪练

發(fā)布時間：2024/7/5 windows 65 豆豆

生活随笔收集整理的這篇文章主要介紹了战斗机嵌入式训练系统中的智能虚拟陪练小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練

人工智能技術(shù)與咨詢?

來源：《航空學(xué)報》?，作者陳斌等

摘要：智能化“實(shí)虛”對抗是現(xiàn)代先進(jìn)戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)的重要功能需求。自主空戰(zhàn)決策控制技術(shù)在未來空戰(zhàn)裝備發(fā)展中扮演關(guān)鍵角色。將當(dāng)前的功能需求和發(fā)展中的技術(shù)結(jié)合起來，得到了空戰(zhàn)智能虛擬陪練的概念。先進(jìn)控制決策技術(shù)的引入使得智能虛擬陪練能夠幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練，而訓(xùn)練中真實(shí)的對抗場景為技術(shù)的驗(yàn)證提供了理想的環(huán)境，大量的訓(xùn)練數(shù)據(jù)為技術(shù)的持續(xù)迭代優(yōu)化提供了保障。作為可學(xué)習(xí)和進(jìn)化的空戰(zhàn)戰(zhàn)術(shù)專家，智能陪練在人機(jī)對抗和自我對抗中不斷優(yōu)化，當(dāng)其具備與人相當(dāng)甚至超越人的戰(zhàn)術(shù)能力時，可應(yīng)用于未來的無人空戰(zhàn)系統(tǒng)。智能虛擬陪練需要具備4項(xiàng)基本能力：智能決策能力、知識學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示能力。對其包含的關(guān)鍵技術(shù)進(jìn)行了分析，提出并實(shí)現(xiàn)了一個基于模糊推理、神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的解決方案，展示了其各項(xiàng)基本能力及目前達(dá)到的空戰(zhàn)水平。未來更多的模型和算法可在智能虛擬陪練的框架中進(jìn)行驗(yàn)證和優(yōu)化。

關(guān)鍵詞：嵌入式訓(xùn)練系統(tǒng)；智能虛擬陪練；自主空戰(zhàn)；模糊推理；神經(jīng)網(wǎng)絡(luò)；強(qiáng)化學(xué)習(xí)

現(xiàn)代戰(zhàn)斗機(jī)裝備的嵌入式訓(xùn)練系統(tǒng)一般有“實(shí)對實(shí)”訓(xùn)練和“實(shí)對虛”訓(xùn)練2種模式[1]。其中“實(shí)對實(shí)”訓(xùn)練是最接近實(shí)戰(zhàn)的模式，但占用資源多，組織難度大，且存在“假想敵”扮演逼真度有限的問題。“實(shí)對虛”訓(xùn)練通過計算機(jī)生成數(shù)字虛擬目標(biāo)，可以對“假想敵”的平臺、武器和傳感器性能進(jìn)行模擬，能夠根據(jù)訓(xùn)練需要生成任意的交戰(zhàn)場景，從而有效提高空戰(zhàn)訓(xùn)練的針對性，擴(kuò)大訓(xùn)練覆蓋面，提升訓(xùn)練效率[2]。

空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練要求虛擬目標(biāo)具備一定的智能水平[3]。通過建立空戰(zhàn)規(guī)則庫和戰(zhàn)術(shù)庫，賦予虛擬目標(biāo)基本的戰(zhàn)術(shù)響應(yīng)能力，使“實(shí)”、“虛”之間可以進(jìn)行簡單的對抗[4-5]。通過將空戰(zhàn)戰(zhàn)法分解為時序動作，可以實(shí)現(xiàn)對某些特定戰(zhàn)法的模擬[6]。進(jìn)一步提高虛擬目標(biāo)的智能水平，實(shí)現(xiàn)更復(fù)雜更有針對性的戰(zhàn)術(shù)演練，是嵌入式訓(xùn)練系統(tǒng)的客觀需求[7-8]。

拋開具體的訓(xùn)練場景，將虛擬目標(biāo)視作一個獨(dú)立的空戰(zhàn)智能體，虛擬目標(biāo)智能化所需解決的核心問題即為自主空戰(zhàn)的決策與控制。而以實(shí)現(xiàn)無人機(jī)自主空戰(zhàn)為目標(biāo)，國內(nèi)外進(jìn)行了各類研究探索[9-11]。其中常用的模型包括影響圖[12-13]、矩陣博弈[14]、微分對策[15]、動態(tài)規(guī)劃[16-18]、模糊推理[19-23]、貝葉斯網(wǎng)絡(luò)[24-25]等。這些模型大體上可以分為2類，一類是通過建立各式各樣的“優(yōu)勢函數(shù)”，將空戰(zhàn)問題轉(zhuǎn)化為優(yōu)化問題求解；另一類則是模仿人類思維過程建立基于規(guī)則的模型。基于“優(yōu)勢函數(shù)”的模型為保證其可解性，一般將空戰(zhàn)問題大幅簡化，采用的“優(yōu)勢函數(shù)”大多欠缺嚴(yán)格的物理依據(jù)，或者忽略了空戰(zhàn)中的重要約束(如中距導(dǎo)彈的中制導(dǎo)過程)，導(dǎo)致其實(shí)用價值有限。基于規(guī)則的模型在處理簡單戰(zhàn)術(shù)的時候較為合適，但隨著輸入?yún)?shù)和戰(zhàn)術(shù)選擇的增多，遭遇到維數(shù)爆炸問題。

隨著近年來深度學(xué)習(xí)引領(lǐng)的人工智能技術(shù)的又一次大爆發(fā)[26-27]，自主空戰(zhàn)決策控制的研究有了新的突破方向。基于神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的模型開始進(jìn)入研究人員的視線，在解決空戰(zhàn)機(jī)動決策[28-32]、路徑規(guī)劃[33]和目標(biāo)分配[34]等方面初步顯示了其能力。機(jī)器學(xué)習(xí)算法帶來了新的方向，同時也暴露了該領(lǐng)域研究存在的客觀問題。空戰(zhàn)對抗非零和的數(shù)學(xué)本質(zhì)決定了先驗(yàn)知識對模型的重要性[35]，機(jī)器學(xué)習(xí)算法本身也需要大量的數(shù)據(jù)作為基礎(chǔ)，而先進(jìn)戰(zhàn)斗機(jī)之間的空戰(zhàn)對抗數(shù)據(jù)目前多產(chǎn)生于航空兵部隊的內(nèi)部訓(xùn)練中，研發(fā)人員不易接觸[36]；基于各類機(jī)器學(xué)習(xí)技術(shù)的模型需要一個持續(xù)的迭代優(yōu)化過程，而機(jī)載軟件的安全性要求決定了其不能頻繁更換；在各類簡化環(huán)境下訓(xùn)練得到的模型在真實(shí)對抗中的性能有待檢驗(yàn)。

結(jié)合虛擬目標(biāo)智能化提升和自主空戰(zhàn)技術(shù)發(fā)展2方面的需求，本文提出智能虛擬陪練的概念。智能虛擬陪練，是具備自主決策控制能力的空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練虛擬對手,及其自主空戰(zhàn)能力學(xué)習(xí)進(jìn)化支持體系。其依托于機(jī)載嵌入式訓(xùn)練系統(tǒng)，此外還有配套的維護(hù)和開發(fā)系統(tǒng)。不同于目前的虛擬目標(biāo)，智能虛擬陪練不再是為完成某些特定訓(xùn)練情景任務(wù)而設(shè)計，而是具備完整獨(dú)立的空戰(zhàn)決策和控制能力，在幫助飛行員訓(xùn)練的同時自身也在不斷進(jìn)化。

通過引入自主空戰(zhàn)決策控制技術(shù)，使智能虛擬陪練能夠滿足復(fù)雜空戰(zhàn)戰(zhàn)術(shù)演練的需求；通過賦予智能虛擬陪練監(jiān)督學(xué)習(xí)能力，使其能夠?qū)W習(xí)“假想敵”戰(zhàn)術(shù)特點(diǎn)，從而滿足針對性訓(xùn)練需要；通過對嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù)的整理分析，為模型的機(jī)器學(xué)習(xí)提供先驗(yàn)知識和優(yōu)化訓(xùn)練樣本；通過賦予智能虛擬陪練對抗優(yōu)化能力，使其能夠在“人機(jī)”對抗和機(jī)器自對抗中不斷進(jìn)化；通過實(shí)現(xiàn)核心模型的便捷配置，為模型算法的快速迭代提供途徑。

智能虛擬陪練不僅是未來嵌入式訓(xùn)練系統(tǒng)“實(shí)虛對抗”功能(如圖1所示)的重要組成，還是自主空戰(zhàn)決策控制技術(shù)迭代優(yōu)化和實(shí)驗(yàn)驗(yàn)證的重要工具，是空戰(zhàn)訓(xùn)練和新技術(shù)研發(fā)耦合進(jìn)步的紐帶，為下一步從虛擬走向真實(shí)，從陪練走向主角打下基礎(chǔ)。

1 智能虛擬陪練的能力需求

智能虛擬陪練的運(yùn)行場景如圖2所示。智能虛擬陪練不僅要實(shí)現(xiàn)嵌入式訓(xùn)練系統(tǒng)實(shí)虛對抗的智能化，還要實(shí)現(xiàn)其自主空戰(zhàn)能力的不斷進(jìn)化。智能虛擬陪練的基本能力要求包括以下3項(xiàng)。

1.1 智能戰(zhàn)術(shù)決策和控制

智能虛擬陪練能夠根據(jù)任務(wù)目標(biāo)(奪取制空權(quán)、要地防守、區(qū)域突襲等)，綜合考慮交戰(zhàn)雙方的平臺性能(機(jī)動性能、滯空時間、隱身性能等)、武器性能(武器射程、導(dǎo)引頭截獲距離、命中概率等)和傳感器性能(探測距離范圍和角度范圍)，對空中態(tài)勢做出快速合理的戰(zhàn)術(shù)響應(yīng)。其機(jī)動動作的控制應(yīng)為實(shí)現(xiàn)相應(yīng)機(jī)動目的的最優(yōu)或次優(yōu)解。

圖1 嵌入式訓(xùn)練系統(tǒng)中的“實(shí)虛對抗”原理

Fig.1 Principle of “real vs virtual counterwork” in embedded training system.

圖2 智能虛擬陪練運(yùn)行場景

Fig.2 Scenario of intelligent virtual training partner’s operation.

與專家經(jīng)驗(yàn)和戰(zhàn)術(shù)資料不同，空戰(zhàn)對抗演習(xí)數(shù)據(jù)中沒有顯式的規(guī)則，需要用相應(yīng)的識別算法挖掘出其中的戰(zhàn)術(shù)決策知識。

1.2 空戰(zhàn)戰(zhàn)術(shù)對抗優(yōu)化

經(jīng)過對空戰(zhàn)先驗(yàn)知識的學(xué)習(xí)，智能虛擬陪練可以具備基本的空戰(zhàn)能力。人機(jī)對抗和機(jī)器自對抗可以進(jìn)一步優(yōu)化模型和提升戰(zhàn)術(shù)水平。人機(jī)對抗，既包括空戰(zhàn)專家在模擬器上與智能虛擬陪練的對抗，也包括飛行員在空中進(jìn)行的實(shí)虛對抗訓(xùn)練。對抗數(shù)據(jù)可存入數(shù)據(jù)庫用于模型的自動優(yōu)化。

機(jī)器自對抗是智能虛擬陪練自動優(yōu)化的重要手段。通過采用大規(guī)模并行計算等手段，機(jī)器自對抗可在較短時間內(nèi)積累大量的對抗數(shù)據(jù)。通過機(jī)器自對抗，不僅可以對監(jiān)督訓(xùn)練得到的戰(zhàn)術(shù)決策模型進(jìn)行調(diào)整優(yōu)化，還可以自動探索空戰(zhàn)戰(zhàn)術(shù)，發(fā)現(xiàn)未被人發(fā)現(xiàn)和使用過的戰(zhàn)術(shù)。

1.3 核心模型參數(shù)化表示

智能虛擬陪練的核心決策控制模型實(shí)現(xiàn)參數(shù)化表示，可通過軟件配置文件加載，從而實(shí)現(xiàn)模型的便捷更換。對用戶來說，根據(jù)訓(xùn)練任務(wù)的不同，可以靈活選擇決策控制模型。對研發(fā)方來說，智能虛擬陪練的決策控制模型一直處于訓(xùn)練優(yōu)化的進(jìn)程中，在得到階段性成果后即可快速投入測試和使用。

2 智能虛擬陪練的關(guān)鍵技術(shù)

按照上述基本能力要求，可以得到智能虛擬陪練的基本功能邏輯，進(jìn)一步可以將智能虛擬陪練進(jìn)行詳細(xì)的功能劃分，如圖3所示。

圖3 智能虛擬陪練功能分析

Fig.3 Function analysis of intelligent virtual training partner

智能虛擬陪練分為應(yīng)用端和開發(fā)維護(hù)端。應(yīng)用端由傳感器模擬、決策控制核心模型、武器接口模擬和飛機(jī)平臺模擬4個部分組成。決策控制核心模型包含態(tài)勢計算、決策計算和戰(zhàn)術(shù)控制計算3個模塊。開發(fā)和維護(hù)端包含先驗(yàn)規(guī)則庫、基于規(guī)則的決策控制模型，參數(shù)化決策控制模型，以及對抗運(yùn)行環(huán)境。

2.1 應(yīng)用端關(guān)鍵技術(shù)

2.1.1 態(tài)勢計算

態(tài)勢計算一直是空戰(zhàn)決策控制研究的重點(diǎn)問題，常用的模型包括指標(biāo)體系[37]、D-S證據(jù)理論[38]、貝葉斯網(wǎng)絡(luò)[39]等。近年來基于神經(jīng)網(wǎng)絡(luò)的態(tài)勢評估方法也不斷出現(xiàn)[40-41]。智能虛擬陪練的態(tài)勢計算要求必須考慮交戰(zhàn)雙方的平臺、武器和傳感器性能。目前常用的主觀構(gòu)建的各類優(yōu)勢函數(shù)，普遍缺乏對性能因素的定量考慮。建立基于空戰(zhàn)物理規(guī)律的態(tài)勢評估模型，是實(shí)現(xiàn)空戰(zhàn)智能決策控制所需解決的首要問題。

2.1.2 決策計算

以空中敵我運(yùn)動參數(shù)，我方平臺狀態(tài)、武器狀態(tài)、傳感器狀態(tài)，以及態(tài)勢計算得到的角色任務(wù)、目標(biāo)威脅度、我方導(dǎo)彈命中概率等參數(shù)為輸入，進(jìn)行戰(zhàn)術(shù)決策計算。

決策計算的實(shí)現(xiàn)有2種思路。一種是“推演”式?jīng)Q策。決策模型在決策過程中，需要同時模擬雙方的戰(zhàn)術(shù)響應(yīng)進(jìn)行多步推演，根據(jù)推演的結(jié)果進(jìn)行戰(zhàn)術(shù)選擇。AlfaGo等棋類人工智能使用的MCTS[42]算法即為典型的“推演”式?jīng)Q策；另一類則是“反應(yīng)式”決策，也即決策模型是決策輸入到輸出的直接映射，決策計算一步完成。本質(zhì)上“反應(yīng)式”決策模型是一個從態(tài)勢輸入到最優(yōu)響應(yīng)戰(zhàn)術(shù)的函數(shù)。目前空戰(zhàn)領(lǐng)域研究的多為“反應(yīng)式”決策模型。“推演式”決策的理論研究是一個值得期待的方向。

在使用復(fù)雜機(jī)器學(xué)習(xí)算法時，需要考慮機(jī)載嵌入式環(huán)境的硬件資源限制。

2.1.3 戰(zhàn)術(shù)控制計算

戰(zhàn)術(shù)控制包括飛機(jī)平臺機(jī)動控制、武器控制和傳感器控制。現(xiàn)代先進(jìn)戰(zhàn)斗機(jī)配備放寬靜穩(wěn)定電傳飛控系統(tǒng)。為發(fā)揮飛機(jī)最大的機(jī)動性能，在飛控系統(tǒng)內(nèi)設(shè)計高級戰(zhàn)術(shù)機(jī)動動作庫，戰(zhàn)術(shù)決策輸出則為動作選擇。每一個戰(zhàn)術(shù)機(jī)動都設(shè)有其優(yōu)化目標(biāo)和限制條件，飛控系統(tǒng)基于此求解最優(yōu)控制策略。高級戰(zhàn)術(shù)機(jī)動包含的要素如表1所示。

表1 高級戰(zhàn)術(shù)機(jī)動示例

Table 1 Examples of high level tactical maneuver

傳感器的輻射狀態(tài)、工作模式和搜索區(qū)域是重要的戰(zhàn)術(shù)控制對象。武器則是發(fā)射流程和發(fā)射模式需要控制。

2.1.4 傳感器模擬

為了提高智能虛擬陪練的逼真度，各類傳感器的數(shù)字模型需要對其性能參數(shù)和工作邏輯進(jìn)行模擬。例如，雷達(dá)有搜索模式和跟蹤模式的區(qū)別，搜索范圍受框架角限制[43]，存在速度過零現(xiàn)象等。

2.2 開發(fā)維護(hù)端關(guān)鍵技術(shù)

2.2.1 從專家經(jīng)驗(yàn)、戰(zhàn)術(shù)資料中識別戰(zhàn)術(shù)規(guī)則

從專家和戰(zhàn)術(shù)資料的自然語言表述中，識別出決策模型適用的空戰(zhàn)戰(zhàn)術(shù)規(guī)則，一般即為“IF-THEN”形式。

2.2.2 從對抗數(shù)據(jù)中識別戰(zhàn)術(shù)規(guī)則

嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù)，需要進(jìn)行時空對準(zhǔn)、航跡關(guān)聯(lián)等操作后，才能轉(zhuǎn)化為信息完備的空中交戰(zhàn)態(tài)勢。從交戰(zhàn)中飛行員駕駛飛機(jī)的運(yùn)動參數(shù)和狀態(tài)變化，識別其采取了什么戰(zhàn)術(shù)(智能虛擬陪練則是直接記錄了戰(zhàn)術(shù)決策過程)，這樣才能得到“IF-THEN”形式的規(guī)則。

2.2.3 基于規(guī)則的決策模型產(chǎn)生參數(shù)化決策模型

基于規(guī)則的模型便于建立，參數(shù)化模型則便于進(jìn)行自動優(yōu)化和模型配置。由規(guī)則模型訓(xùn)練參數(shù)化模型已證明可行[44]。另一種思路則是將規(guī)則模型本身參數(shù)化，如美國某公司提出的進(jìn)化模糊推理系統(tǒng)[23,45]，其中對模糊推理系統(tǒng)的隸屬度函數(shù)和規(guī)則都進(jìn)行了參數(shù)化。

2.2.4 智能虛擬陪練自對抗優(yōu)化

近年來引起廣泛關(guān)注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展現(xiàn)了基于深度強(qiáng)化學(xué)習(xí)的智能體的強(qiáng)大的自對抗優(yōu)化能力。美國某公司則號稱其使用遺傳算法優(yōu)化模糊推理樹，實(shí)現(xiàn)了超越專家飛行員的空戰(zhàn)水平[23,45]，其核心也是模型自對抗。智能虛擬陪練的自對抗優(yōu)化，不僅能實(shí)現(xiàn)對先驗(yàn)知識的優(yōu)化，還可以充分挖掘既有戰(zhàn)術(shù)庫的潛能，甚至創(chuàng)造目前沒有的空戰(zhàn)策略。此外，通過自對抗優(yōu)化，智能虛擬陪練能夠自動適應(yīng)平臺、武器或傳感器性能的變化，使其具備高度的各向兼容性。

2.2.5 對抗運(yùn)行環(huán)境

智能虛擬陪練自對抗需要在高速并行計算環(huán)境下運(yùn)行，除了硬件平臺的支持，模型算法也需要適配[47-48]。

3 智能虛擬陪練的解決方案

3.1 解決方案

為驗(yàn)證上述智能虛擬陪練功能邏輯合理性和相關(guān)關(guān)鍵技術(shù)的可行性，本文提出了一個初步解決方案并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。下面介紹方案的關(guān)鍵技術(shù)和實(shí)驗(yàn)驗(yàn)證情況。圖4為這個方案的應(yīng)用端部分，其中決策計算部分包含模糊推理和神經(jīng)網(wǎng)絡(luò)2個模型，在不同的階段需要使用不同的模型。

圖4 智能虛擬陪練應(yīng)用端解決方案

Fig.4 A solution to intelligent virtual training partner’s application side

3.1.1 傳感器和武器

傳感器層包括了紅外告警和雷達(dá)、雷達(dá)告警的仿真模型。各模型中除引入了各項(xiàng)性能限制外，還加入了重要的工作邏輯，如雷達(dá)搜索和跟蹤模式的切換等。武器為中距導(dǎo)彈。其仿真模型包括發(fā)動機(jī)推力模型、導(dǎo)彈氣動模型和導(dǎo)引頭模型。

3.1.2 態(tài)勢計算

在態(tài)勢計算方面，拋棄了傳統(tǒng)的基于主觀賦權(quán)或優(yōu)勢函數(shù)的態(tài)勢評估方法，以平臺、武器和傳感器性能為依據(jù)，按照空戰(zhàn)物理原理建立了空戰(zhàn)態(tài)勢評估模型。態(tài)勢評估模型的典型輸出示例如表2所示。

在這個解決方案中，態(tài)勢計算模塊除對單機(jī)交戰(zhàn)態(tài)勢進(jìn)行評估計算，還可以完成編隊角色分配和目標(biāo)分配的計算工作。

3.1.3 空戰(zhàn)戰(zhàn)術(shù)庫和規(guī)則庫

以超視距空戰(zhàn)為研究對象，分析和整理了經(jīng)典的超視距空戰(zhàn)戰(zhàn)術(shù)，構(gòu)建了戰(zhàn)術(shù)動作庫，如表3所示。以人工方式識別專家經(jīng)驗(yàn)和戰(zhàn)術(shù)資料中的戰(zhàn)術(shù)規(guī)則，構(gòu)建了戰(zhàn)術(shù)規(guī)則庫。共得到10種戰(zhàn)術(shù)動作，60條戰(zhàn)術(shù)規(guī)則。為每一個戰(zhàn)術(shù)動作設(shè)計相應(yīng)的控制律，將其封裝成高級戰(zhàn)術(shù)動作控制器。

3.1.4 模糊推理戰(zhàn)術(shù)決策模型

在規(guī)則庫和戰(zhàn)術(shù)庫的基礎(chǔ)上，建立一個模糊推理戰(zhàn)術(shù)決策模型[23]。對模糊推理模型進(jìn)行了參數(shù)化改造，使其推理規(guī)則、模糊隸屬度函數(shù)等均可以進(jìn)行參數(shù)化表示，如圖5所示(編碼“0”表示該項(xiàng)輸入/輸出未被引用)。將隸屬度函數(shù)的各個關(guān)鍵點(diǎn)用其坐標(biāo)來表示，調(diào)節(jié)關(guān)鍵點(diǎn)坐標(biāo)即可完成對隸屬度函數(shù)的調(diào)節(jié)。任意一條規(guī)則包含其引用的輸入和輸出，以及各項(xiàng)輸入輸出的語義值。將模糊推理系統(tǒng)涉及的所有輸入和輸出按序編碼，對語義也作編碼處理，就可以簡單的實(shí)現(xiàn)對規(guī)則的參數(shù)化表達(dá)。

表2 態(tài)勢計算模型的輸出示例

Table 2 Examples of situation assessment model output

表3 超視距空戰(zhàn)經(jīng)典戰(zhàn)術(shù)動作

Table 3 Classical tactical maneuvers in BVR air combat

圖5 隸屬度函數(shù)和推理規(guī)則的參數(shù)化過程

Fig.5 Parameterization process of membership function and inference rules

通過調(diào)節(jié)推理規(guī)則和模糊隸屬度函數(shù)參數(shù)，使決策模型的響應(yīng)與規(guī)則庫中的經(jīng)驗(yàn)知識基本一致。

使用配置該模型的紅藍(lán)雙方進(jìn)行模擬對抗，對抗場景和雙方的武器配置隨機(jī)生成，記錄紅藍(lán)雙方各自的決策輸入和輸出。以實(shí)驗(yàn)中的一次模型生成周期中的數(shù)據(jù)為例，紅藍(lán)對抗得到總計2 204場的對抗數(shù)據(jù)，對應(yīng)4 408架次的模型決策序列。

3.1.5 神經(jīng)網(wǎng)路戰(zhàn)術(shù)決策模型

模糊推理模型相互對抗產(chǎn)生的數(shù)據(jù)為參數(shù)化模型的建立提供了初始樣本。建立了一個BP神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)為輸入30維，輸出10維，2隱層，網(wǎng)絡(luò)權(quán)值參數(shù)總量為1 541。用上述對抗數(shù)據(jù)對其進(jìn)行有監(jiān)督訓(xùn)練。隨后使用該模型組織紅藍(lán)模擬對抗，對抗裁決器根據(jù)交戰(zhàn)結(jié)果分別給予紅藍(lán)雙方獎勵或懲罰。神經(jīng)網(wǎng)絡(luò)決策模型使用記錄的對抗過程數(shù)據(jù)和最后的獎懲進(jìn)行強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)模型優(yōu)化，決策模型生成過程如圖6所示。對抗優(yōu)化過程的實(shí)現(xiàn)參考文獻(xiàn)[47-48]中的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DQN)算法。這里沒有使用文獻(xiàn)[47-48]中的深度卷積神經(jīng)網(wǎng)絡(luò)，這是由于在此問題中，決策輸入是由傳感器輸出和態(tài)勢計算輸出組成的一維狀態(tài)向量，而不是卷積神經(jīng)網(wǎng)絡(luò)擅長處理的二維圖像信息。

在DQN處理的棋類和電視游戲中，決策通常是從一個相對固定的初始狀態(tài)開始的。而在實(shí)際空戰(zhàn)中，交戰(zhàn)初始條件，包括雙方的初始態(tài)勢和初始武器配置，是在一定范圍內(nèi)隨機(jī)的。棋類游戲中雙方初始態(tài)勢為均衡，而空戰(zhàn)決策模型必須能夠處理初始態(tài)勢非均衡的交戰(zhàn)問題。這就使得初始條件對交戰(zhàn)結(jié)果的影響在對抗優(yōu)化中不可忽略。如圖7所示，初始已經(jīng)處于絕對劣勢的一方，無論作出何種戰(zhàn)術(shù)決策，都會被擊落。在這種情況下，仍直接按照勝獎敗懲的原理給予決策模型反饋，強(qiáng)化學(xué)習(xí)算法將難以收斂。

這里采取了一種“主-客”機(jī)制來解決這個問題：雙方完成一次對抗后，互換初始條件，綜合2場對抗的結(jié)果來進(jìn)行獎懲，以消除初始態(tài)勢的影響。在圖7中，假設(shè)擊落獎勵1，被擊落獎勵-1，否則獎勵0。采用2場獎勵平均的方法進(jìn)行綜合。那么在互換態(tài)勢前后，雙方相互擊落一次，因此各自得到獎勵為0。而如果有一方能夠在處于劣勢時不被擊落，那么綜合2場結(jié)果其將被獎勵0.5，對方則獎勵-0.5。

圖6 智能虛擬陪練戰(zhàn)術(shù)決策模型生成過程

Fig.6 Procedure of generating decision making model for intelligent virtual training partner

圖7 初始態(tài)勢的影響和“主-客”機(jī)制

Fig.7 Influence of initial situation and ‘home vs away’ system

3.1.6 性能評估

選擇空戰(zhàn)交換比作為決策模型性能的評估標(biāo)準(zhǔn)。交換比定義為一方被擊落次數(shù)與擊落對方次數(shù)的比。

3.2 基本能力驗(yàn)證

第1節(jié)所述4項(xiàng)基本能力中，參數(shù)化表示能力已由模型的本身特性確保，另外3項(xiàng)需要進(jìn)行實(shí)驗(yàn)驗(yàn)證。

3.2.1 先驗(yàn)知識學(xué)習(xí)能力

神經(jīng)網(wǎng)絡(luò)模型在完成對2 204場對抗數(shù)據(jù)的學(xué)習(xí)后，其決策輸出與模糊推理模型輸出的對比如圖8所示。可以看出，神經(jīng)網(wǎng)絡(luò)輸出在保持其趨勢和模糊推理模型基本一致的基礎(chǔ)上，反復(fù)震蕩的現(xiàn)象明顯減少了。在完成有監(jiān)督訓(xùn)練后，神經(jīng)網(wǎng)絡(luò)模型對模糊推理模型的交換比為1∶1.16。這顯示了神經(jīng)網(wǎng)絡(luò)完全掌握了模糊推理規(guī)則庫中的先驗(yàn)知識。同時由于其克服了模糊推理模型輸出震蕩的問題，性能略有提升。

圖8 神經(jīng)網(wǎng)絡(luò)和模糊推理模型輸出對比

Fig.8 Comparison between neural network and fuzzy inference model output

進(jìn)一步的，在具體的仿真對抗場景下驗(yàn)證智能虛擬陪練對戰(zhàn)術(shù)規(guī)則的掌握情況。對抗中紅藍(lán)雙方使用相同版本的決策模型。

1) 三代機(jī)對三代機(jī)基本戰(zhàn)術(shù)

圖9中紅藍(lán)雙方均為三代機(jī)平臺，傳感器武器配置相同。雙方初始態(tài)勢為均勢(同高度同速度)，迎頭進(jìn)入空戰(zhàn)。雙方各自躲掉前2發(fā)導(dǎo)彈(第2發(fā)圖中未顯示)，在此過程中雙方持續(xù)下降高度，武器射程縮短，雙方距離逐漸縮小。紅方最后掉頭時機(jī)不當(dāng)被擊落。紅藍(lán)雙方為同版本模型但決策出現(xiàn)差異的原因在于對抗中存在隨機(jī)擾動因素，包括傳感器探測誤差和決策模型的戰(zhàn)術(shù)隨機(jī)探索。從這里可以看出，在平臺、傳感器和武器性能相同且初始態(tài)勢一致的前提下，決定空戰(zhàn)勝負(fù)的即是決策的細(xì)微差異。圖10展示了雙方從第2次攻擊到對抗結(jié)束的決策輸出。在實(shí)際的三代機(jī)超視距空戰(zhàn)中，適時置尾規(guī)避敵機(jī)導(dǎo)彈，再回轉(zhuǎn)繼續(xù)攻擊，是常見且合理的戰(zhàn)術(shù)。

2) 三代機(jī)對四代機(jī)基本戰(zhàn)術(shù)

圖11中紅方為三代機(jī)平臺，藍(lán)方為四代機(jī)平臺。藍(lán)方具有隱身優(yōu)勢。雙方初始態(tài)勢為均勢，迎頭進(jìn)入空戰(zhàn)。藍(lán)方先發(fā)現(xiàn)紅方。紅方在收到雷達(dá)告警后，開始做切向機(jī)動，破壞藍(lán)方跟蹤的同時逼近藍(lán)方，成功規(guī)避藍(lán)方第1發(fā)導(dǎo)彈。最終紅方逼近到雷達(dá)可以發(fā)現(xiàn)藍(lán)方的距離，雙方相互攻擊，紅方因開火時間晚先被擊落，但其導(dǎo)彈已對藍(lán)方構(gòu)成致命威脅。圖12展示了雙方對抗全程的決策輸出。三代機(jī)利用雷達(dá)的過零現(xiàn)象逼近四代機(jī)，是不多的可以取得一定效果的戰(zhàn)術(shù)選擇。

圖9 三代機(jī)vs三代機(jī)

Fig.9 Counterwork between two 3rd generation fighters

圖10 三代機(jī)對戰(zhàn)三代機(jī)紅藍(lán)決策輸出對比

Fig.10 Comparison of red with blue decisions in 3rd generation vs 3rd generation counterwork

圖11 三代機(jī)(紅)vs四代機(jī)(藍(lán))

Fig.11 Counterwork between 3th generation fighter (red) and 4th generation fighter (blue)

通過仿真對抗實(shí)驗(yàn)可以看出，智能虛擬陪練掌握了不同平臺性能配置下的基本超視距空戰(zhàn)戰(zhàn)術(shù)，其戰(zhàn)術(shù)響應(yīng)合理正確，與已知的空戰(zhàn)經(jīng)驗(yàn)知識基本符合。

圖12 三代機(jī)對戰(zhàn)四代機(jī)紅藍(lán)決策輸出對比

Fig.12 Comparison between red and blue decisions in 3rd generation vs 4th generation counterwork

3.2.2 對抗自優(yōu)化能力

在神經(jīng)網(wǎng)絡(luò)完成第1輪1 291場對抗優(yōu)化后，對模糊推理模型的交換比提高到1∶2.73。在完成第2輪765場對抗優(yōu)化后，對模糊推理模型的交換比提高到1∶3.6。交換比的提高顯示了自對抗對神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化效果。

3.2.3 智能決策綜合能力

構(gòu)建復(fù)雜對抗場景，對解決方案中的態(tài)勢計算和決策模型進(jìn)行更全面的能力驗(yàn)證。這里以雙機(jī)編隊和單機(jī)的對抗作為仿真實(shí)驗(yàn)場景。

圖13中紅藍(lán)雙方均為三代機(jī)平臺，傳感器和武器配備相同。紅方為雙機(jī)編隊，1號機(jī)前突，2號機(jī)掩護(hù)。紅方1號機(jī)和藍(lán)方飛機(jī)相互攻擊。在導(dǎo)彈逼近到危險距離后，雙方開始機(jī)動規(guī)避。此時紅方2號機(jī)加速前突進(jìn)行攻擊占位。紅方1號機(jī)和藍(lán)方飛機(jī)各自成功規(guī)避導(dǎo)彈后開始掉頭。此時紅方1號機(jī)處于掩護(hù)位置，紅方2號機(jī)處于前突位置，紅方編隊完成了角色輪轉(zhuǎn)。藍(lán)方飛機(jī)掉頭后遭到紅方2號機(jī)導(dǎo)彈攻擊，不得不再次機(jī)動規(guī)避。此時紅方2號機(jī)繼續(xù)加速前突。在藍(lán)方規(guī)避掉導(dǎo)彈后，紅方2號機(jī)在超音速狀態(tài)下再次發(fā)射導(dǎo)彈。由于距離近，導(dǎo)彈初速高，藍(lán)方未能規(guī)避被擊落。此時紅方1號機(jī)也已到達(dá)攻擊發(fā)起位置，準(zhǔn)備下一輪攻擊。

在這個對抗過程中，態(tài)勢計算模塊進(jìn)行了正確合理的角色和任務(wù)分配，戰(zhàn)術(shù)決策模型在正確合理的時機(jī)選擇了導(dǎo)彈發(fā)射、置尾規(guī)避和回轉(zhuǎn)進(jìn)攻等戰(zhàn)術(shù)動作，顯示了智能虛擬陪練在復(fù)雜對抗場景下具備較好的戰(zhàn)術(shù)決策能力。

圖13 紅方雙機(jī)編隊協(xié)同對抗藍(lán)方單機(jī)

Fig.13 Counterwork between two collaborative red flights and a single blue flight

該解決方案驗(yàn)證了前面提出的智能虛擬陪練的功能邏輯和開發(fā)維護(hù)流程的合理性，證明了其中主要關(guān)鍵技術(shù)的可行性。此驗(yàn)證方案中使用的規(guī)則庫和戰(zhàn)術(shù)庫內(nèi)容較少，神經(jīng)網(wǎng)絡(luò)規(guī)模較小，未使用并行計算，未實(shí)現(xiàn)規(guī)則的自動識別。模型裝機(jī)后得到人機(jī)對抗數(shù)據(jù)，其中智能虛擬陪練的決策記錄可直接供神經(jīng)網(wǎng)絡(luò)模型回放強(qiáng)化學(xué)習(xí)，人的決策過程數(shù)據(jù)仍需要進(jìn)行人工識別。

智能虛擬陪練的核心，也即空戰(zhàn)戰(zhàn)術(shù)決策和控制，是一個在迅速發(fā)展的研究熱點(diǎn)，各類模型算法，只要符合前面提出的基本功能要求，都可以通過智能虛擬陪練進(jìn)行驗(yàn)證和迭代。

4 從智能虛擬陪練到自主空戰(zhàn)

從智能虛擬陪練到自主空戰(zhàn)(如圖14所示)，主要是從傳感器、武器和飛機(jī)平臺仿真模型，到真實(shí)的傳感器、武器和飛機(jī)平臺接口。智能虛擬陪練的決策和控制模型，則可以直接應(yīng)用到無人自主空戰(zhàn)系統(tǒng)中。無人自主空戰(zhàn)系統(tǒng)，既可以在現(xiàn)有有人機(jī)平臺上改裝，也可以是專門研制的制空型無人機(jī)。智能虛擬陪練的自對抗優(yōu)化能力，使其能夠適應(yīng)平臺的變化。無論是哪一類平臺，智能虛擬陪練的意義在于，使這些無人自主空戰(zhàn)系統(tǒng)快速具備與人類飛行員相當(dāng)甚至更好的戰(zhàn)術(shù)決策和控制能力，使其綜合作戰(zhàn)效能得到提升。

圖14 從智能虛擬陪練到自主空戰(zhàn)

Fig.14 From intelligent virtual training partner to autonomous air combat

5 結(jié) 論

本文提出的智能虛擬陪練，既是空戰(zhàn)訓(xùn)練發(fā)展的客觀需求，又是自主空戰(zhàn)技術(shù)實(shí)驗(yàn)驗(yàn)證的工具。拋開具體的有限的訓(xùn)練情景，把智能虛擬陪練視作具有完全自主能力的空戰(zhàn)智能體，分析了其基本能力要求，得到其4項(xiàng)基本能力，即智能決策能力、學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示的能力。據(jù)此設(shè)計了智能虛擬陪練的功能邏輯，并識別出了其中的關(guān)鍵技術(shù)。其中，基于規(guī)則的決策模型可以用來訓(xùn)練參數(shù)化模型，而參數(shù)化模型進(jìn)行自對抗優(yōu)化。以模糊推理模型、神經(jīng)網(wǎng)絡(luò)模型和強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了一個初步的智能虛擬陪練解決方案，實(shí)驗(yàn)表明其能夠滿足4項(xiàng)基本能力要求，在不同平臺配置和不同場景下均能進(jìn)行合理的戰(zhàn)術(shù)決策和控制。未來自主空戰(zhàn)領(lǐng)域的新模型、新算法，均可在智能虛擬陪練的框架下，按照4項(xiàng)基本能力的要求進(jìn)行實(shí)驗(yàn)驗(yàn)證和迭代優(yōu)化。

我們的服務(wù)類型

公開課程

人工智能、大數(shù)據(jù)、嵌入式? ? ? ? ? ? ??? ?? ?

內(nèi)訓(xùn)課程

普通內(nèi)訓(xùn)、定制內(nèi)訓(xùn)? ? ? ? ? ? ? ?? ??? ? ??

項(xiàng)目咨詢

技術(shù)路線設(shè)計、算法設(shè)計與實(shí)現(xiàn)（圖像處理、自然語言處理、語音識別）

總結(jié)

以上是生活随笔為你收集整理的战斗机嵌入式训练系统中的智能虚拟陪练的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C++ 类设计核查表
下一篇：【推荐系统算法学习笔记1】基本架构、专有