10没有基于策略的qos_基于强化学习的用户移动场景下空中基站3D位置高效部署...
Efficient 3D Aerial Base Station Placement Considering Users Mobility by Reinforcement Learning
摘要:
本文研究了一種考慮用戶移動性的空中基站(aerial BS)輔助地面網絡。用戶移動性會動態地改變網絡,這可能會導致通信性能損失。為了避免這種損失,我們在網絡中增加了一個空中基站來保證最低的服務質量(QoS)甚至可能提高QoS。為了公平地比較傳統地面網絡和空中基站輔助的地面網絡,我們保持兩種地面網絡的基站總數相同。在這樣的網絡中,能否獲得最佳的性能,很大程度上取決于空中基站的最優配置部署位置。為此,需要一種算法,它可以依賴一般的和現實的假設,可以根據過去的經驗決定去 哪里。針對這一目標提出基于折扣獎勵強化學習方法,即Q -學習。仿真結果表明,該方法提供了一種在需要時可以提高無線網絡服務質量的有效布局策略,并保證了在離散環境中找到最優的空中基站部署位置。
文章貢獻:
在已有的研究空中基站系統的文章中,幾乎都沒有考慮用戶的移動性,即實際上優化問題針對的是一個靜態網絡,而實際中用戶位置在不斷變化由此會導致通信質量的變化。因此,本文利用無人機作為空中移動基站來解決這一問題,而無人機的部署位置對系統的性能產生很大的影響,類似的文章中大多采用啟發式算法來求解優化問題,而當網絡拓撲動態變化時,啟發式算法需要重新初始化并重新運行才可以得到最優的結果,這個過程非常耗費時間而且計算復雜度較高。因此,本文采用強化學習來對空中基站地三維部署位置優化問題進行求解,在訓練完成后,可以及時地根據拓撲變化給出對應的優化結果,避免了優化算法的重復運行。
通信模型:
考慮包括若干地面宏基站和空中基站的無線蜂窩網絡下行鏈路,空-地鏈路路徑衰落主要與空中基站的高度以及其與地面用戶連線的仰角有關,主要包括兩種傳輸類型:視距鏈路(Line-of-sight, LoS)和非視距鏈路(non Line-of-sight, NLoS)。具備LoS鏈路的可能性為:
其中
為空中基站與用戶連線的俯仰角(弧度), 和 為與環境有關的參數。平均路徑衰落可以定義為:
和 分別為兩種鏈路的衰落參數。 。用戶移動模型:
采用最常用的隨機游走模型,如圖1所示。模型中用戶移動方向服從
的均勻分布,而用戶被隨機分配一個取值 之間的速度。圖1 基于隨機游走模型的用戶移動場景優化問題:
其中
為用戶 與基站 通信鏈路的信息率。算法設計:
強化學習依賴于學習主體在學習過程中所接受的獎勵和懲罰。在學習過程中,agent將學習采取最優的過程,在我們的例子中,目標為QoS的最大化。處于當前狀態的agent執行一個動作并計算與執行該特定動作相關的及時獎勵。這將持續到下一次動作。然后,系統狀態發生變化,需要在新的狀態上運行此過程。在每個狀態轉換中,agent生成一個矩陣,其中包括在狀態轉換中收集的所有信息。信息包括獎勵和新的狀態。這個矩陣將在以后的狀態轉換中使用,并幫助agent進一步改進系統性能。
在
時間間隔內使用Q-learning來尋找空中基站的最優三維位置來提高QoS,設定無人機六個動作,分別為空間中的六個運動方向;環境狀態設定為無人機在三維空間中的位置在t時刻的獎勵設為當前時刻QoS與前一時刻QoS的差值,即:而Q值按照下面的公式進行更新:
為學習率,隨著學習過程接近收斂而不斷減小。 為折扣因子。算法偽代碼如表1所示表1 算法偽代碼仿真結果:
考慮由19個地面基站成六邊形分布的蜂窩網絡,用戶的數量在150-800之間,初始位置服從泊松點過程,部分參數設置如下表所示。
圖2為t=100s時通過Q-learning所獲得的無人機最優位置。圖3為用戶平均信噪干比的累積分布函數,藍線為只有19個地面基站構成的網絡,紅線代表由18個地面基站和一個空中基站構成的網絡,從圖中可以看到,由于采用了空中移動基站來輔助通信,可以根據用戶的動態位置做出調整,因此可以保證用戶獲得較高的傳輸質量,大部分用戶都具備較高的信噪干比,60%以上的用戶信噪干比在10的以上。而在未部署空中基站的網絡中, 40%的用戶信噪干比處于0dB以下,處于10dB以下的則達到了80%。說明通過本文的算法來設計空中基站的部署位置可以適應用戶的移動場景,并極大地提高用戶的通信質量。
圖2 t=100s時通過Q-learning所獲得的無人機最優位置圖3 用戶平均信噪干比的累積分布函數圖4為兩種情況下頻譜效率隨著時間的變化情況,從圖中可以看到,隨著用戶的移動,固定基站無法保證用戶的獲得較高的信息率,因而頻帶利用率有所下降;而部署的空中基站可以根據用戶的動態分布來改變自己的位置,以保證用戶獲得較高的信息率,而隨著時間的推移,頻帶利用率達到了上限,說明算法已經達到了收斂,不論用戶位置如何改變,都能很快地計算出最優部署位置。
圖4 頻譜效率隨著時間的變化情況圖5給出了訓練過程中獎勵值的變化情況。
圖5 訓練過程中獎勵值的變化情況結論:
本文引入空中基站來輔助地面蜂窩網絡為地面用戶提供通信服務,解決了由于用戶移動所導致得QoS下降的問題,采用Q-learning的算法來對空中基站的部署位置進行尋優,仿真結果表明在進行足夠的訓練之后,根據訓練得到的模型可以快速地尋找到空中基站的最優部署位置,以滿足用戶的通信需求,提高系統的頻帶利用率,因此,這是保證未來無線網絡敏捷靈活性的有效方法。
個人啟發與思考:
本文采用隨機游走模型來對用戶的移動進行描述,而Q-learning實際上是對不同時刻的用戶分布都構建了與之對應的位置部署策略,為解決用戶動態移動場景中資源分配優化問題的很好的思路。
總結
以上是生活随笔為你收集整理的10没有基于策略的qos_基于强化学习的用户移动场景下空中基站3D位置高效部署...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python pickle反序列化漏洞_
- 下一篇: python 新建文件 hdfs_大数据