日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > windows >内容正文

windows

面向多星多任务的大数据处理系统设计

發(fā)布時(shí)間:2025/3/15 windows 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 面向多星多任务的大数据处理系统设计 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

點(diǎn)擊上方藍(lán)字關(guān)注我們


面向多星多任務(wù)的大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

馬福利1,?石濤2,?陳玲1,?鄭巖1,?熊森林1

1?中國(guó)科學(xué)院國(guó)家空間科學(xué)中心,北京 100190

2?中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100094

?摘要隨著我國(guó)發(fā)射的空間科學(xué)衛(wèi)星越來(lái)越多,科學(xué)數(shù)據(jù)量爆發(fā)式增長(zhǎng),空間科學(xué)衛(wèi)星大數(shù)據(jù)處理逐漸成為空間科學(xué)創(chuàng)新發(fā)展過(guò)程中被重點(diǎn)關(guān)注的環(huán)節(jié),建設(shè)一套高性能的地面數(shù)據(jù)處理系統(tǒng)是建設(shè)我國(guó)自主可控的空間科學(xué)大數(shù)據(jù)生態(tài)、助力科學(xué)成果產(chǎn)出的重要推手。面向多星多任務(wù)并行處理的任務(wù)需求,針對(duì)空間科學(xué)衛(wèi)星大數(shù)據(jù)處理中的多分級(jí)分類、多源產(chǎn)品融合組織以及高時(shí)效性要求等特點(diǎn),提出了適用于大數(shù)據(jù)處理業(yè)務(wù)場(chǎng)景的高可靠硬件環(huán)境設(shè)計(jì)方案,并針對(duì)科學(xué)衛(wèi)星處理任務(wù)類型多的特點(diǎn),提出了基于任務(wù)類型感知的統(tǒng)一資源調(diào)度系統(tǒng)。完成了面向多星多任務(wù)的可擴(kuò)展地面大數(shù)據(jù)處理系統(tǒng)的研制,支撐了中國(guó)科學(xué)院空間科學(xué)先導(dǎo)專項(xiàng)中的科學(xué)衛(wèi)星數(shù)據(jù)處理任務(wù)。

關(guān)鍵詞?科學(xué)衛(wèi)星?;?大數(shù)據(jù)?;?可擴(kuò)展?;?地面處理系統(tǒng)

論文引用格式:

馬福利, 石濤, 陳玲, 等. 面向多星多任務(wù)的大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)[J]. 大數(shù)據(jù), 2021, 7(5): 3-16.

MA F L, SHI T, CHEN L, et al. Design of big data processing system supporting multi-satellites and multi-tasks[J]. Big Data Research, 2021, 7(5): 3-16.


1 引言

空間科學(xué)是一門前沿交叉性學(xué)科,聚焦于宇宙和生命起源、太陽(yáng)系與人類起源等基礎(chǔ)前沿主題,致力于解決暗物質(zhì)與暗能量、引力波、太陽(yáng)活動(dòng)與空間天氣響應(yīng)等重大科學(xué)問(wèn)題。空間科學(xué)是典型的“數(shù)據(jù)驅(qū)動(dòng)”型學(xué)科。以航天器平臺(tái)為主要手段獲取的科學(xué)數(shù)據(jù)對(duì)于學(xué)科的發(fā)展具有舉足輕重的作用。一套優(yōu)良的衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)需要保障科學(xué)衛(wèi)星數(shù)據(jù)的正確性、完整性、可用性、易用性和時(shí)效性,最大限度地發(fā)揮出衛(wèi)星探測(cè)數(shù)據(jù)的研究?jī)r(jià)值。

國(guó)內(nèi)外就衛(wèi)星地面處理系統(tǒng)開展了大量的研制工作,形成了較穩(wěn)定的科學(xué)衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)框架。國(guó)內(nèi)方面,遙感衛(wèi)星形成了面向單衛(wèi)星的基于分布式云存儲(chǔ)技術(shù)的地面實(shí)時(shí)處理系統(tǒng)以及具有一定任務(wù)調(diào)度能力的多衛(wèi)星地面處理系統(tǒng)模式;風(fēng)云氣象衛(wèi)星數(shù)據(jù)存檔與服務(wù)系統(tǒng)基于高性能計(jì)算機(jī)集群建立了可支持風(fēng)云系列衛(wèi)星的存儲(chǔ)與服務(wù);基于面向服務(wù)架構(gòu)(service-oriented architecture, SOA)研制的天宮二號(hào)地面數(shù)據(jù)處理與服務(wù)系統(tǒng)實(shí)現(xiàn)了多領(lǐng)域、多載荷、海量數(shù)據(jù)的集中處理和管理。國(guó)外方面,歐洲空間天文中心(European Space Astronomy Centre,ESAC)與日本宇宙航空研究開發(fā)機(jī)構(gòu)(Japan Aerospace Exploration Agency,JAXA)采用Docker技術(shù)研制的衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)可支持不同載荷數(shù)據(jù)處理算法的快速交換和部署,很好地執(zhí)行了水星探測(cè)任務(wù)BepiColombo。

空間科學(xué)研究具有很強(qiáng)的競(jìng)爭(zhēng)性,只有大膽創(chuàng)新才能孕育出顛覆性的結(jié)果,這種學(xué)科內(nèi)稟屬性決定了每項(xiàng)空間科學(xué)任務(wù)在探測(cè)空間布局、探測(cè)內(nèi)容設(shè)計(jì)、有效載荷探測(cè)精度/分辨率方面與已有的衛(wèi)星任務(wù)有著巨大的差異。隨之而來(lái)的是衛(wèi)星任務(wù)對(duì)地面數(shù)據(jù)處理系統(tǒng)提出的新挑戰(zhàn)。例如,空間天文警報(bào)信息的識(shí)別和發(fā)布要求是秒級(jí)響應(yīng),處理時(shí)效性極高;先進(jìn)天基太陽(yáng)天文臺(tái)(advanced space-based solar observatory,ASO-S)衛(wèi)星單日產(chǎn)生約500 GB的原始觀測(cè)數(shù)據(jù),處理數(shù)據(jù)量巨大;暗物質(zhì)粒子探測(cè)衛(wèi)星(dark matter particle explorer,DAMPE)要求星上探測(cè)數(shù)據(jù)不丟失一個(gè)源包,質(zhì)量要求嚴(yán)苛。空間科學(xué)衛(wèi)星數(shù)據(jù)的獨(dú)特性質(zhì)給衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)提出了更多的個(gè)性化需求。

當(dāng)前,我國(guó)空間科學(xué)衛(wèi)星任務(wù)呈現(xiàn)體系發(fā)展態(tài)勢(shì),要求配套建設(shè)的地面數(shù)據(jù)處理系統(tǒng)可滿足多星多任務(wù)地面數(shù)據(jù)處理與管理需求。傳統(tǒng)的衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)難以滿足大數(shù)據(jù)場(chǎng)景下的多領(lǐng)域、多種類、大體量、高時(shí)效性、高質(zhì)量等數(shù)據(jù)處理要求。基于此,本文在細(xì)致分析空間科學(xué)衛(wèi)星地面數(shù)據(jù)處理系統(tǒng)需求與面臨的技術(shù)挑戰(zhàn)的基礎(chǔ)上,設(shè)計(jì)了一套可滿足多星多任務(wù)的空間科學(xué)衛(wèi)星大數(shù)據(jù)地面數(shù)據(jù)處理系統(tǒng)框架,系統(tǒng)地實(shí)現(xiàn)了衛(wèi)星下行數(shù)據(jù)的快速處理,對(duì)特定的天文警報(bào)數(shù)據(jù)實(shí)現(xiàn)了秒級(jí)快速處理。

2 空間科學(xué)衛(wèi)星大數(shù)據(jù)特性分析

空間科學(xué)衛(wèi)星的數(shù)據(jù)處理過(guò)程需根據(jù)學(xué)科進(jìn)行差異化流程設(shè)計(jì),主要依據(jù)衛(wèi)星的數(shù)據(jù)產(chǎn)品分級(jí)定義劃分。從衛(wèi)星下行的原始數(shù)據(jù)到用于發(fā)布的2級(jí)或3級(jí)數(shù)據(jù)產(chǎn)品,每級(jí)數(shù)據(jù)產(chǎn)品的組織形態(tài)根據(jù)學(xué)科慣例以及衛(wèi)星任務(wù)數(shù)據(jù)處理和管理需求進(jìn)行自定義。本文以引力波暴高能電磁對(duì)應(yīng)體全天監(jiān)測(cè)器(gravitational wave highenergy electromagnetic counterpart all-sky monitor,GECAM)衛(wèi)星為例介紹衛(wèi)星數(shù)據(jù)處理流程和數(shù)據(jù)產(chǎn)品組織過(guò)程的特點(diǎn)。GECAM衛(wèi)星是我國(guó)首顆具有警報(bào)數(shù)據(jù)實(shí)時(shí)下行能力的空間天文科學(xué)衛(wèi)星,星上下行的數(shù)據(jù)包括事例數(shù)據(jù)、并道數(shù)據(jù)、工程數(shù)據(jù)以及天文警報(bào)數(shù)據(jù),其各級(jí)數(shù)據(jù)處理步驟以及數(shù)據(jù)產(chǎn)品組織過(guò)程具有典型的大數(shù)據(jù)量、密集型計(jì)算以及多源數(shù)據(jù)融合處理等特征。

2.1 依據(jù)數(shù)據(jù)產(chǎn)品分級(jí)而定義的數(shù)據(jù)處理流程

由于星上計(jì)算資源和存儲(chǔ)資源非常有限以及載荷部分自身設(shè)計(jì)的原因,很多科學(xué)探測(cè)數(shù)據(jù)需要經(jīng)過(guò)解壓、解算以及融合等處理后才能成為可供科學(xué)家進(jìn)行科學(xué)分析的數(shù)據(jù)產(chǎn)品,下行處理過(guò)程中的輸出數(shù)據(jù)會(huì)根據(jù)平臺(tái)、載荷以及輔助數(shù)據(jù)的類型進(jìn)行分類處理,通常也會(huì)根據(jù)處理的程度進(jìn)行不同的數(shù)據(jù)產(chǎn)品格式定義。因此,衛(wèi)星數(shù)據(jù)處理流程的規(guī)劃往往與數(shù)據(jù)產(chǎn)品的分級(jí)定義有直接的關(guān)聯(lián)。

圖1展示了依據(jù)產(chǎn)品分級(jí)定義的GECAM衛(wèi)星0級(jí)產(chǎn)品處理流程。GECAM衛(wèi)星通過(guò)遙測(cè)信道、數(shù)傳信道和北斗信道下行星上原始觀測(cè)數(shù)據(jù)。根據(jù)數(shù)據(jù)處理程度的不同,預(yù)處理數(shù)據(jù)產(chǎn)品主要?jiǎng)澐譃?A、0B、0C、0D和0Q等級(jí)別。GECAM衛(wèi)星數(shù)據(jù)處理首先需要按照不同的下行信道類型進(jìn)行區(qū)分處理,在每類處理中需根據(jù)產(chǎn)品子級(jí)定義不同的處理流程。

圖1???GECAM衛(wèi)星0級(jí)產(chǎn)品處理流程

2.2 多源融合的數(shù)據(jù)產(chǎn)品組織結(jié)構(gòu)

從多源異構(gòu)數(shù)據(jù)中抽取相關(guān)信息并支持高效數(shù)據(jù)融合組織,按照產(chǎn)品格式要求輸出時(shí)間和內(nèi)容完整的數(shù)據(jù)產(chǎn)品是科學(xué)衛(wèi)星大數(shù)據(jù)處理的又一特點(diǎn)。由于科學(xué)衛(wèi)星探測(cè)任務(wù)的類型不同以及科學(xué)數(shù)據(jù)處理與研究分析的需求不同,數(shù)據(jù)產(chǎn)品組織的定義往往差異較大。為了實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品的可用性和易用性,通常會(huì)根據(jù)使用需求在產(chǎn)品中加入其他多源、異構(gòu)的輔助數(shù)據(jù)信息,產(chǎn)品組織和生產(chǎn)中存在對(duì)多源數(shù)據(jù)的提取、組織拼接需求。

常規(guī)觀測(cè)類的衛(wèi)星一般根據(jù)數(shù)據(jù)的生產(chǎn)時(shí)間或軌道圈次進(jìn)行固定時(shí)間段的數(shù)據(jù)內(nèi)容切分,比如按小時(shí)、按天、按軌道號(hào)進(jìn)行數(shù)據(jù)產(chǎn)品的組織;試驗(yàn)類或者提案類的科學(xué)衛(wèi)星需要針對(duì)一次試驗(yàn)或一次提案覆蓋的時(shí)間段進(jìn)行數(shù)據(jù)產(chǎn)品的組織,將一次試驗(yàn)或與提案相關(guān)的數(shù)據(jù)進(jìn)行融合組織。

GECAM衛(wèi)星將觸發(fā)時(shí)刻產(chǎn)生的觸發(fā)信息組織成約31條短報(bào)文數(shù)據(jù),并通過(guò)北斗系統(tǒng)實(shí)時(shí)下行至地面,同時(shí)將觸發(fā)時(shí)刻對(duì)應(yīng)的約300 s數(shù)據(jù)通過(guò)X波段優(yōu)先下行。由于觸發(fā)時(shí)段內(nèi)的數(shù)據(jù)對(duì)于科學(xué)分析工作至關(guān)重要,為了方便科學(xué)家開展數(shù)據(jù)產(chǎn)品分析,呈現(xiàn)觸發(fā)時(shí)間段內(nèi)完整的數(shù)據(jù)內(nèi)容,在數(shù)據(jù)處理過(guò)程中為該類產(chǎn)品設(shè)計(jì)了特有的產(chǎn)品組織模型,如圖2所示。觸發(fā)數(shù)據(jù)產(chǎn)品組織中包括觸發(fā)數(shù)據(jù)、姿態(tài)數(shù)據(jù)、軌道數(shù)據(jù)、載荷工作狀態(tài)以及日月地空間信息等數(shù)據(jù),這些數(shù)據(jù)分別來(lái)自載荷工程數(shù)據(jù)信道、爆發(fā)科學(xué)數(shù)據(jù)信道以及北斗短報(bào)文,在地面經(jīng)過(guò)多源融合處理后,按照觸發(fā)編號(hào)組織成特定的觸發(fā)數(shù)據(jù)產(chǎn)品。

圖2???GECAM衛(wèi)星觸發(fā)數(shù)據(jù)產(chǎn)品組織模型

2.3 處理數(shù)據(jù)體量大、種類廣

空間科學(xué)衛(wèi)星數(shù)據(jù)的最大特點(diǎn)是種類多、來(lái)源廣、體量大。地面數(shù)據(jù)處理系統(tǒng)需要同時(shí)支持多個(gè)空間科學(xué)在軌衛(wèi)星下行數(shù)據(jù)處理任務(wù)。衛(wèi)星開展7×2 4小時(shí)不間斷的探測(cè),源源不斷地產(chǎn)生新的科學(xué)數(shù)據(jù)并下行至地面,系統(tǒng)需對(duì)接收的多源、多信使原始數(shù)據(jù)(數(shù)傳信道數(shù)據(jù)、遙測(cè)信道數(shù)據(jù)、北斗短報(bào)文、甚高頻(very high frequency,VHF)數(shù)據(jù))開展虛擬信道分離、解幀、源包提取、解包、排序、重組、物理量解析轉(zhuǎn)換、載荷粗略標(biāo)定、產(chǎn)品格式化等處理,按產(chǎn)品內(nèi)容和處理程度組織成不同級(jí)別的編輯級(jí)數(shù)據(jù)產(chǎn)品。

空間科學(xué)衛(wèi)星在軌單日探測(cè)數(shù)據(jù)量逐漸增長(zhǎng),硬X射線調(diào)制望遠(yuǎn)鏡(hard x-ray modulation telescope,HXMT)衛(wèi)星每日通過(guò)數(shù)傳X波段下行的原始數(shù)據(jù)約27.9 GB,暗物質(zhì)粒子探測(cè)衛(wèi)星每日下行的原始數(shù)據(jù)約26.69 GB,太極一號(hào)衛(wèi)星每日下行的原始數(shù)據(jù)約8.05 GB,墨子號(hào)量子科學(xué)實(shí)驗(yàn)衛(wèi)星每日下行的原始數(shù)據(jù)約0.41 GB,ASO-S衛(wèi)星每日下行的原始數(shù)據(jù)約500 GB。此外,還有中法天文衛(wèi)星SVOM(space variable objects monitor)、愛因斯坦探針(Einstein probe,EP)衛(wèi)星以及中歐微笑衛(wèi)星SMILE (solar wind magnetosphere ionosphere link explorer)等待發(fā)射的科學(xué)衛(wèi)星,后續(xù)在軌科學(xué)衛(wèi)星單日下行的原始數(shù)據(jù)峰值量預(yù)計(jì)將達(dá)到800 GB,系統(tǒng)單日需生產(chǎn)數(shù)千類編輯級(jí)數(shù)據(jù)產(chǎn)品以及數(shù)十類星地時(shí)差、軌道根數(shù)、精密星歷、衛(wèi)星指向夾角等輔助數(shù)據(jù)產(chǎn)品,單日輸出的數(shù)據(jù)產(chǎn)品預(yù)計(jì)約2 TB。

2.4 數(shù)據(jù)時(shí)效性要求高

為了盡快拿到衛(wèi)星下行的第一手資料,并在第一時(shí)間發(fā)現(xiàn)重大的科學(xué)事件,各衛(wèi)星科學(xué)應(yīng)用系統(tǒng)往往會(huì)對(duì)數(shù)據(jù)處理的時(shí)效性提出較高的要求。在下行數(shù)據(jù)量非常大的情況下,往往會(huì)對(duì)數(shù)據(jù)設(shè)置處理優(yōu)先級(jí),將有科學(xué)事件警報(bào)意義的數(shù)據(jù)以最高優(yōu)先級(jí)進(jìn)行處理。尤其是針對(duì)空間天文類的衛(wèi)星探測(cè)任務(wù),天體爆發(fā)事件轉(zhuǎn)瞬即逝,如果不能快速發(fā)現(xiàn)并處理事件,就會(huì)錯(cuò)失很多重要的發(fā)現(xiàn)。因此,為了滿足多源、多信使手段對(duì)已發(fā)現(xiàn)天體源/爆發(fā)源的觀測(cè),空間天文數(shù)據(jù)對(duì)處理時(shí)效性提出了秒級(jí)或分鐘級(jí)的要求。

特別地,空間天文警報(bào)數(shù)據(jù)產(chǎn)品的時(shí)效性要求達(dá)到了秒級(jí)。星上原始數(shù)據(jù)采用將所有數(shù)據(jù)混合的組織方式,設(shè)計(jì)高效的處理模式和資源調(diào)度框架以保證滿足秒級(jí)的處理時(shí)效性要求是地面數(shù)據(jù)處理系統(tǒng)面臨的一大挑戰(zhàn)。

2.5 數(shù)據(jù)產(chǎn)品質(zhì)量控制要求嚴(yán)格

空間科學(xué)衛(wèi)星數(shù)據(jù)處理的另一大特質(zhì)是需要從數(shù)據(jù)規(guī)范性、一致性和完整性等角度保障數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)可讀、可用、易用和好用。數(shù)據(jù)質(zhì)量控制要求意味著系統(tǒng)每進(jìn)行一次(級(jí)別)產(chǎn)品生產(chǎn)或數(shù)據(jù)傳輸,均需對(duì)數(shù)據(jù)產(chǎn)品質(zhì)量進(jìn)行審核和校驗(yàn),確保數(shù)據(jù)在地面處理或傳輸中不引入錯(cuò)誤。遇到因星地傳輸導(dǎo)致的數(shù)據(jù)缺失或時(shí)間不連續(xù)時(shí),為了保障數(shù)據(jù)完整性,系統(tǒng)需對(duì)備份數(shù)據(jù)或歷史數(shù)據(jù)進(jìn)行重新生產(chǎn),這為系統(tǒng)中的產(chǎn)品版本識(shí)別與控制、產(chǎn)品組織和管理帶來(lái)了挑戰(zhàn)。

2.6 數(shù)據(jù)計(jì)算任務(wù)類型多

各空間科學(xué)衛(wèi)星的數(shù)據(jù)處理需求和目標(biāo)不同,因此各個(gè)數(shù)據(jù)處理環(huán)節(jié)中的計(jì)算需求也會(huì)根據(jù)處理目標(biāo)的不同而變化。例如在GECAM衛(wèi)星0D級(jí)數(shù)據(jù)處理中,需對(duì)大量事例數(shù)據(jù)(時(shí)間分辨率優(yōu)于1 s)中的時(shí)間碼進(jìn)行解算,解算算法包括3次擬合,計(jì)算復(fù)雜度高,屬于計(jì)算密集型處理任務(wù),對(duì)CPU資源具有較高的需求;在0B級(jí)數(shù)據(jù)處理過(guò)程中需要頻繁調(diào)度地面系統(tǒng)公共信息庫(kù)提供的WebService接口,以獲取處理過(guò)程中需要的信息,這種跨服務(wù)器的頻繁I/O查詢屬于I/O密集型處理任務(wù),該類型的任務(wù)對(duì)CPU的消耗通常比較高;ASO-S衛(wèi)星單次過(guò)境下行的原始數(shù)據(jù)約110 GB,開展百GB量級(jí)的數(shù)據(jù)處理屬于典型的數(shù)據(jù)密集型處理任務(wù),對(duì)于CPU計(jì)算資源、存儲(chǔ)資源都是巨大的挑戰(zhàn)。

3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

3.1 系統(tǒng)框架設(shè)計(jì)

作為空間科學(xué)衛(wèi)星的地面共性基礎(chǔ)設(shè)施,科學(xué)衛(wèi)星大數(shù)據(jù)處理系統(tǒng)需要統(tǒng)籌考慮衛(wèi)星數(shù)據(jù)產(chǎn)品的特性、數(shù)據(jù)處理過(guò)程的特征,以及工程任務(wù)的數(shù)據(jù)時(shí)效性和可靠性要求。從可擴(kuò)展的角度考慮,如果繼續(xù)采用傳統(tǒng)的數(shù)據(jù)處理系統(tǒng),在每次擴(kuò)展新增衛(wèi)星及其有效載荷的數(shù)據(jù)處理功能時(shí),都需改變?cè)继幚沓绦虻木幋a,進(jìn)行重新編譯和發(fā)布,不僅耗費(fèi)時(shí)間與人力成本,還可能引起軟件兼容性問(wèn)題。因此,亟須研制一套具有可擴(kuò)展、高性能的數(shù)據(jù)處理系統(tǒng),保證系統(tǒng)能夠靈活地對(duì)處理流程進(jìn)行動(dòng)態(tài)擴(kuò)展,實(shí)現(xiàn)科學(xué)衛(wèi)星大數(shù)據(jù)的快速處理與質(zhì)量控制要求。

本文基于“共性+衛(wèi)星專用插件”的設(shè)計(jì)理念,設(shè)計(jì)統(tǒng)一的任務(wù)調(diào)度與資源管理平臺(tái),為各衛(wèi)星任務(wù)的專用插件提供統(tǒng)一的任務(wù)調(diào)度接口和資源調(diào)度接口,實(shí)現(xiàn)衛(wèi)星專用插件的動(dòng)態(tài)配置,如圖3所示。系統(tǒng)接收科學(xué)衛(wèi)星通過(guò)各個(gè)信道下行的原始數(shù)據(jù),采用統(tǒng)一的處理計(jì)算調(diào)度系統(tǒng)、統(tǒng)一的計(jì)算資源任務(wù)管理機(jī)制以及標(biāo)準(zhǔn)的任務(wù)調(diào)用接口和信息反饋機(jī)制,基于數(shù)據(jù)驅(qū)動(dòng)的方式對(duì)各個(gè)科學(xué)衛(wèi)星的數(shù)據(jù)處理插件進(jìn)行任務(wù)調(diào)度,并將生成的數(shù)據(jù)產(chǎn)品發(fā)送至相應(yīng)的科學(xué)應(yīng)用系統(tǒng)。

圖3???空間科學(xué)衛(wèi)星大數(shù)據(jù)處理系統(tǒng)框架

3.1.1 大數(shù)據(jù)處理系統(tǒng)基礎(chǔ)軟件架構(gòu)

針對(duì)科學(xué)衛(wèi)星載荷數(shù)據(jù)處理方法多樣化、衛(wèi)星數(shù)據(jù)產(chǎn)品組織多源性、衛(wèi)星數(shù)據(jù)處理流程步驟環(huán)環(huán)相扣等特點(diǎn),設(shè)計(jì)基于高性能計(jì)算集群以及超融合計(jì)算環(huán)境的大數(shù)據(jù)處理系統(tǒng),采用統(tǒng)一任務(wù)與資源調(diào)度+專用業(yè)務(wù)插件擴(kuò)展的架構(gòu)形式;針對(duì)計(jì)算任務(wù)調(diào)度的實(shí)時(shí)性要求,采用Kafka分布式消息系統(tǒng)進(jìn)行消息和日志的傳遞;針對(duì)信息查詢類的接口,設(shè)計(jì)標(biāo)準(zhǔn)的WebService服務(wù)。基礎(chǔ)軟件架構(gòu)如圖4所示。

圖4???空間科學(xué)大數(shù)據(jù)處理系統(tǒng)架構(gòu)

大數(shù)據(jù)處理系統(tǒng)最核心的功能是開展各科學(xué)衛(wèi)星的數(shù)據(jù)處理與質(zhì)量分析工作,對(duì)于各類不同的衛(wèi)星專用數(shù)據(jù)處理插件以及專用衛(wèi)星數(shù)據(jù)質(zhì)量分析與控制插件,各插件封裝統(tǒng)一標(biāo)準(zhǔn)的任務(wù)訂單接口以及UDP日志上報(bào)接口。

設(shè)計(jì)統(tǒng)一的數(shù)據(jù)接入接口,通過(guò)文件實(shí)體驗(yàn)證機(jī)制保證數(shù)據(jù)傳輸過(guò)程的安全性和正確性。基于數(shù)據(jù)驅(qū)動(dòng)的方式啟動(dòng)自動(dòng)數(shù)據(jù)處理流程,根據(jù)輸入的原始數(shù)據(jù)的類型調(diào)度對(duì)應(yīng)的衛(wèi)星專用數(shù)據(jù)處理插件以及衛(wèi)星專用數(shù)據(jù)質(zhì)量分析與控制插件,實(shí)現(xiàn)科學(xué)衛(wèi)星的各級(jí)數(shù)據(jù)產(chǎn)品處理、標(biāo)準(zhǔn)化產(chǎn)品生成、數(shù)據(jù)快視、數(shù)據(jù)質(zhì)量分析以及質(zhì)量控制等功能。

統(tǒng)一任務(wù)調(diào)度引擎負(fù)責(zé)對(duì)輸入數(shù)據(jù)的類型進(jìn)行識(shí)別,并針對(duì)數(shù)據(jù)類型及其對(duì)應(yīng)的數(shù)據(jù)處理流程發(fā)送計(jì)算任務(wù)請(qǐng)求,實(shí)現(xiàn)計(jì)算任務(wù)的集中式調(diào)度以及分布式并行處理。在任務(wù)調(diào)度過(guò)程中,該引擎需要統(tǒng)籌考慮各科學(xué)衛(wèi)星的數(shù)據(jù)質(zhì)量信息以及過(guò)站計(jì)劃信息,并將這些動(dòng)態(tài)信息作為任務(wù)調(diào)度的依據(jù)。主要原因包括以下兩點(diǎn)。

● 由于空間科學(xué)研究對(duì)數(shù)據(jù)產(chǎn)品的完整性要求非常高,地面接收站往往會(huì)進(jìn)行多備份數(shù)據(jù)接收。此外,當(dāng)在地面數(shù)據(jù)質(zhì)量控制過(guò)程中發(fā)現(xiàn)數(shù)據(jù)存在缺失時(shí),往往會(huì)通過(guò)點(diǎn)播的方式進(jìn)行星上數(shù)據(jù)的回放,因此會(huì)有大量的冗余數(shù)據(jù)流入處理系統(tǒng)。依靠存儲(chǔ)在科學(xué)衛(wèi)星數(shù)據(jù)質(zhì)量信息庫(kù)中的內(nèi)容,統(tǒng)一任務(wù)調(diào)度引擎可以提前識(shí)別冗余數(shù)據(jù),在生成任務(wù)的入口處進(jìn)行截流,避免冗余數(shù)據(jù)觸發(fā)處理任務(wù)進(jìn)而占用不必要的計(jì)算和存儲(chǔ)資源。

● 通常衛(wèi)星每日的過(guò)站計(jì)劃會(huì)提前幾天制定,并通過(guò)數(shù)傳星歷表上傳至衛(wèi)星,為了保證計(jì)算資源的實(shí)時(shí)可獲取性,當(dāng)衛(wèi)星下行數(shù)據(jù)達(dá)到系統(tǒng)時(shí)能夠有足夠的資源開展數(shù)據(jù)處理任務(wù),系統(tǒng)采用資源預(yù)約機(jī)制,基于科學(xué)衛(wèi)星過(guò)站計(jì)劃信息進(jìn)行資源的提前預(yù)訂。

在數(shù)據(jù)存儲(chǔ)方面,為了提升緩存數(shù)據(jù)的讀寫效率以及系統(tǒng)的穩(wěn)定性,采用分布式文件系統(tǒng)實(shí)現(xiàn)多集群統(tǒng)一共享存儲(chǔ)。針對(duì)科學(xué)衛(wèi)星數(shù)據(jù)的組織特征建立基于標(biāo)準(zhǔn)元數(shù)據(jù)信息的高效數(shù)據(jù)存儲(chǔ)模型,從而提高各個(gè)插件的數(shù)據(jù)讀寫訪問(wèn)速度。

3.1.2 大數(shù)據(jù)處理系統(tǒng)硬件基礎(chǔ)架構(gòu)

衛(wèi)星大數(shù)據(jù)高性能處理系統(tǒng)硬件架構(gòu)包括高性能計(jì)算集群、超融合計(jì)算環(huán)境以及分布式存儲(chǔ)環(huán)境3個(gè)部分,各個(gè)部分之間通過(guò)高速互聯(lián)交換機(jī)進(jìn)行數(shù)據(jù)的傳輸與交換,硬件基礎(chǔ)架構(gòu)如圖5所示。

圖5???大數(shù)據(jù)處理系統(tǒng)硬件基礎(chǔ)架構(gòu)

高性能計(jì)算集群由資源調(diào)度管理節(jié)點(diǎn)和資源處理計(jì)算節(jié)點(diǎn)組成,其中資源調(diào)度管理節(jié)點(diǎn)采用雙路機(jī)架式服務(wù)器,以主/備(active/standby)方式運(yùn)行;資源處理計(jì)算節(jié)點(diǎn)采用四路機(jī)架式服務(wù)器,根據(jù)業(yè)務(wù)應(yīng)用需求通過(guò)調(diào)度管理算法實(shí)現(xiàn)硬件資源的分配管理。

超融合計(jì)算環(huán)境采用四路高性能服務(wù)器,通過(guò)部署FusionSphere虛擬化軟件對(duì)物理服務(wù)器的CPU、內(nèi)存、設(shè)備I/O進(jìn)行硬件解耦,從而實(shí)現(xiàn)在單一物理服務(wù)器上同時(shí)運(yùn)行多個(gè)虛擬機(jī)且相互之間互不影響。

分布式存儲(chǔ)環(huán)境采用冗余網(wǎng)絡(luò)架構(gòu)和N+M糾刪碼保護(hù)機(jī)制充分保證系統(tǒng)無(wú)單點(diǎn)故障,確保數(shù)據(jù)存儲(chǔ)的長(zhǎng)期安全;在不同存儲(chǔ)節(jié)點(diǎn)間使用條帶化技術(shù),將讀寫操作均勻分散到多個(gè)節(jié)點(diǎn),為應(yīng)用訪問(wèn)提供多個(gè)并行傳輸通道,從而有效地提高了系統(tǒng)的讀寫帶寬和每秒的輸入輸出量(input/output per second,IOPS)。

3.1.3 任務(wù)類型感知的統(tǒng)一資源調(diào)度系統(tǒng)

在傳統(tǒng)的空間科學(xué)衛(wèi)星數(shù)據(jù)地面處理系統(tǒng)中,資源調(diào)度系統(tǒng)負(fù)責(zé)將數(shù)據(jù)處理子節(jié)點(diǎn)的CPU、內(nèi)存、硬盤、I/O等資源抽象成資源池,維護(hù)管理資源池,并將資源分配給相應(yīng)的數(shù)據(jù)處理任務(wù),這種架構(gòu)在空間科學(xué)大數(shù)據(jù)場(chǎng)景下面對(duì)多類型的衛(wèi)星數(shù)據(jù)處理任務(wù)時(shí)無(wú)法做出相應(yīng)的處理,無(wú)法最大化發(fā)揮資源節(jié)點(diǎn)的性能,而且會(huì)影響數(shù)據(jù)處理的時(shí)效性。本文提出一種基于任務(wù)類型感知的統(tǒng)一資源調(diào)度系統(tǒng),實(shí)現(xiàn)對(duì)上層數(shù)據(jù)處理任務(wù)的統(tǒng)一編排與管理,根據(jù)科學(xué)衛(wèi)星的數(shù)據(jù)處理任務(wù)需求場(chǎng)景,提供統(tǒng)一可配置的資源管理和分配策略,支持根據(jù)衛(wèi)星、數(shù)據(jù)類型設(shè)定優(yōu)先級(jí),支持預(yù)約類型和實(shí)時(shí)類型的計(jì)算任務(wù)請(qǐng)求,提供松耦合和靈活的計(jì)算任務(wù)與資源的關(guān)聯(lián)關(guān)系,支持底層資源池的動(dòng)態(tài)擴(kuò)展,真正依據(jù)計(jì)算資源的特點(diǎn)做到物盡其用。任務(wù)類型感知的資源調(diào)度系統(tǒng)的架構(gòu)如圖6所示,主要分為資源預(yù)約與請(qǐng)求接口、任務(wù)隊(duì)列、任務(wù)與資源的智能關(guān)聯(lián)匹配以及資源節(jié)點(diǎn)管理4個(gè)部分。

圖6???任務(wù)類型感知的資源調(diào)度系統(tǒng)架構(gòu)

資源預(yù)約與請(qǐng)求接口主要負(fù)責(zé)向上為統(tǒng)一任務(wù)調(diào)度引擎提供資源調(diào)度接口,對(duì)申請(qǐng)的任務(wù)類型進(jìn)行解析,并將任務(wù)發(fā)送至不同的任務(wù)隊(duì)列中,任務(wù)在隊(duì)列中等待匹配合適的計(jì)算資源。

任務(wù)隊(duì)列采用消息隊(duì)列的方式進(jìn)行任務(wù)請(qǐng)求的解析與保存,除了配置傳統(tǒng)的計(jì)算任務(wù)隊(duì)列,還專門設(shè)計(jì)了用于保存資源預(yù)約的任務(wù)隊(duì)列,以提升重要任務(wù)響應(yīng)的及時(shí)性。

任務(wù)與資源的智能關(guān)聯(lián)匹配主要負(fù)責(zé)基于請(qǐng)求任務(wù)類型標(biāo)識(shí)和資源節(jié)點(diǎn)類型標(biāo)識(shí)分別建立任務(wù)索引和資源節(jié)點(diǎn)索引,通過(guò)監(jiān)控任務(wù)隊(duì)列和資源隊(duì)列進(jìn)行全局任務(wù)和資源的動(dòng)態(tài)編排和調(diào)度。

資源節(jié)點(diǎn)管理主要負(fù)責(zé)向下管理集群資源節(jié)點(diǎn),將資源節(jié)點(diǎn)匯聚成資源池,同時(shí)對(duì)資源節(jié)點(diǎn)的類型進(jìn)行標(biāo)注,針對(duì)不同的資源節(jié)點(diǎn)類型,將節(jié)點(diǎn)分為數(shù)據(jù)密集型節(jié)點(diǎn)、計(jì)算密集型節(jié)點(diǎn)、I/O密集型節(jié)點(diǎn)等不同類型的任務(wù)節(jié)點(diǎn)。

資源調(diào)度算法處理流程如下。

/*初始化*/

AppointmentQueue<>,IOTaskQueue<>, DataTaskQueue<>,CPUTaskQueue<>,

Resources <Nodes>

輸入:數(shù)據(jù)處理任務(wù) NewTaskOrder

/*接收并解析數(shù)據(jù)處理任務(wù)*/

taskType = NewTaskOrder.type();

if (taskType == appointment) then/*預(yù)約任務(wù)*/

InsertAppintQueue(NewTaskOrd er)

else if(taskType == IOtype) then

InsertIOQueue(NewTaskOrder)

else if (taskType == DataType) then

InsertDataQueue(NewTaskOrder)

else

InsertCPUQueue(NewTaskOrder)

end if

/**預(yù)約資源**/

MakeAppoint(AppointmentQueue<>, Resources<>)

/*更新資源狀態(tài),并獲取可用計(jì)算資源*/

AvailableResource<> = Update (Resources<>)

/**分配資源**/

for i=0 to i< AvailableResource.size()-1 do:

node = AvailableResource (i); /*獲取可用資源*/

/*將各種類型的資源匹配到對(duì)應(yīng)的任務(wù)隊(duì)列上 */

if (node.type == IOtype && ! IOTaskQueue.empty())

node.execute(IOTaskQueue.getTask())

if(node.type == DataType && ! DataTaskQueue.empty())

node.execute(DataTaskQueue.getTask())

if (node.type == CPUType &&!CPUTaskQueue.empty())

node.executre(CPUTaskQueue.getTask())

else

/*如果各類任務(wù)和資源沒有完全匹配,則將可用資源分配給其他類型的任務(wù)*/unmatchTask = FindWaitingTask (IOTaskQueue, CPUTaskQueue, DataTaskQueue)

node.execute(unmatchTask)

end for

3.2 系統(tǒng)實(shí)現(xiàn)

基于高性能服務(wù)器集群和超融合計(jì)算環(huán)境建設(shè)的可擴(kuò)展高性能地面數(shù)據(jù)處理系統(tǒng)成功地支持了中國(guó)科學(xué)院空間科學(xué)先導(dǎo)專項(xiàng)多顆空間科學(xué)衛(wèi)星的海量原始數(shù)據(jù)的集中處理,系統(tǒng)的數(shù)據(jù)處理效率能夠滿足各科學(xué)工程的性能指標(biāo)要求。作為空間科學(xué)衛(wèi)星地面共性基礎(chǔ)設(shè)施,該系統(tǒng)支持動(dòng)態(tài)擴(kuò)展,可基于大數(shù)據(jù)共性基礎(chǔ)平臺(tái)滿足后續(xù)空間科學(xué)衛(wèi)星的數(shù)據(jù)產(chǎn)品處理及產(chǎn)品組織需求。目前該系統(tǒng)通過(guò)Apache+Tomcat搭建系統(tǒng)整體業(yè)務(wù)監(jiān)管界面,通過(guò)Kafka消息隊(duì)列實(shí)現(xiàn)處理類、數(shù)據(jù)管理類以及數(shù)據(jù)服務(wù)類的狀態(tài)消息實(shí)時(shí)上報(bào),對(duì)系統(tǒng)內(nèi)開展的各類數(shù)據(jù)處理、數(shù)據(jù)管理和分發(fā)等活動(dòng)進(jìn)行實(shí)時(shí)監(jiān)視,依據(jù)輸入數(shù)據(jù)為運(yùn)行流程設(shè)計(jì)唯一標(biāo)識(shí)符,從而可以對(duì)從輸入開始一直到生產(chǎn)各類數(shù)據(jù)產(chǎn)品并對(duì)外提供服務(wù)的整個(gè)過(guò)程進(jìn)行跟蹤,如圖7所示。

圖7???系統(tǒng)綜合業(yè)務(wù)展示

該系統(tǒng)通過(guò)標(biāo)準(zhǔn)的任務(wù)訂單接口和任務(wù)調(diào)度調(diào)度接口,集成了多顆科學(xué)衛(wèi)星的數(shù)據(jù)處理與產(chǎn)品生產(chǎn)、數(shù)據(jù)質(zhì)量分析與評(píng)估等幾十類算法模塊,采用標(biāo)準(zhǔn)WebService接口實(shí)現(xiàn)了對(duì)外接口服務(wù),任務(wù)調(diào)度時(shí)延小于1 s。多星多任務(wù)調(diào)度平臺(tái)如圖8所示。

圖8???多星多任務(wù)調(diào)度平臺(tái)

目前系統(tǒng)運(yùn)行穩(wěn)定,支撐著5顆在軌科學(xué)衛(wèi)星的數(shù)據(jù)處理。系統(tǒng)每日處理的數(shù)據(jù)量約103 GB,輸出的數(shù)據(jù)產(chǎn)品數(shù)量約364 GB。系統(tǒng)將每次數(shù)傳下行處理的數(shù)據(jù)產(chǎn)品自動(dòng)準(zhǔn)實(shí)時(shí)地發(fā)送至各衛(wèi)星科學(xué)應(yīng)用系統(tǒng),有效地支持了HXMT衛(wèi)星、暗物質(zhì)粒子探測(cè)衛(wèi)星以及墨子號(hào)量子科學(xué)實(shí)驗(yàn)衛(wèi)星科學(xué)成果的發(fā)現(xiàn)。

4 結(jié)束語(yǔ)

面對(duì)空間科學(xué)后續(xù)衛(wèi)星探測(cè)數(shù)據(jù)量大幅增加,數(shù)據(jù)處理過(guò)程更加復(fù)雜,處理耗時(shí)增加與天文警報(bào)數(shù)據(jù)超高時(shí)效性要求的趨勢(shì),有待在系統(tǒng)自動(dòng)化的基礎(chǔ)上進(jìn)一步研究智能化技術(shù)和流式數(shù)據(jù)處理技術(shù),以大幅改善系統(tǒng)的多任務(wù)并行處理能力。針對(duì)多類型任務(wù)調(diào)度引擎的兼容性和可擴(kuò)展性,需進(jìn)一步優(yōu)化資源統(tǒng)一調(diào)度接口,采用輕量化容器技術(shù)增強(qiáng)代碼遷移的能力。未來(lái)還將開展共性數(shù)據(jù)處理算法的抽象工作,增加共性數(shù)據(jù)處理工具集,降低擴(kuò)展新衛(wèi)星任務(wù)帶來(lái)的成本。

作者簡(jiǎn)介

馬福利(1986-),男,中國(guó)科學(xué)院國(guó)家空間科學(xué)中心高級(jí)工程師,主要研究方向?yàn)樾l(wèi)星地面數(shù)據(jù)處理技術(shù)、大數(shù)據(jù)計(jì)算與存儲(chǔ)技術(shù)。

石濤(1982-),男,中國(guó)科學(xué)院空天信息創(chuàng)新研究院副研究員,主要研究方向?yàn)樾l(wèi)星地面數(shù)據(jù)處理技術(shù)和衛(wèi)星數(shù)據(jù)地面處理系統(tǒng)。

陳玲(1987-),女,中國(guó)科學(xué)院國(guó)家空間科學(xué)中心項(xiàng)目高級(jí)工程師,主要研究方向?yàn)樾l(wèi)星地面數(shù)據(jù)處理技術(shù)。

鄭巖(1983-),男,中國(guó)科學(xué)院國(guó)家空間科學(xué)中心高級(jí)工程師,主要研究方向?yàn)榇髷?shù)據(jù)環(huán)境下的融合計(jì)算存儲(chǔ)技術(shù)和通信網(wǎng)絡(luò)技術(shù)。

熊森林(1988-),男,博士,中國(guó)科學(xué)院國(guó)家空間科學(xué)中心助理研究員,主要研究方向?yàn)榭臻g物理學(xué)、衛(wèi)星地面數(shù)據(jù)處理與管理技術(shù)。

聯(lián)系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉(zhuǎn)載、合作:010-81055537

大數(shù)據(jù)期刊

《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中國(guó)科技核心期刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦中文科技期刊,并被評(píng)為2018年、2019年國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫(kù)“綜合性人文社會(huì)科學(xué)”學(xué)科最受歡迎期刊。

關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容

總結(jié)

以上是生活随笔為你收集整理的面向多星多任务的大数据处理系统设计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。