日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介...

發(fā)布時間:2025/6/17 windows 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
技術(shù)發(fā)展現(xiàn)狀

近年來,數(shù)據(jù)規(guī)模快速增長,使得Hadoop、Spark等大數(shù)據(jù)批處理系統(tǒng)在現(xiàn)實(shí)中得到了廣泛應(yīng)用。同時,應(yīng)用對數(shù)據(jù)處理時效性需求不斷加強(qiáng),促使諸如Flink的大數(shù)據(jù)流式處理系統(tǒng)應(yīng)運(yùn)而生。現(xiàn)實(shí)中的很多大數(shù)據(jù)應(yīng)用,比如高通量視頻處理應(yīng)用,既需要處理大量數(shù)據(jù),又對數(shù)據(jù)處理時延有極高要求,亟需將批處理技術(shù)和流式處理技術(shù)進(jìn)行整合。在處理器方面,GPU已成為加速數(shù)據(jù)處理的重要硬件,而現(xiàn)有的大數(shù)據(jù)處理技術(shù)如Hadoop、Spark、Flink仍以通用處理器為主。因此,有必要系統(tǒng)地開展研究,構(gòu)建面向CPU-GPU異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù)與系統(tǒng),充分利用新型硬件的加速特性。

1. 技術(shù)發(fā)展現(xiàn)狀

項(xiàng)目團(tuán)隊(duì)

國家重點(diǎn)研發(fā)計劃“面向異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù)與系統(tǒng)”,是由華東師范大學(xué)牽頭,聯(lián)合湖南大學(xué)、西北工業(yè)大學(xué)、東北大學(xué)、中國人民解放軍國防科技大學(xué)、湖南城市學(xué)院、湖南工業(yè)大學(xué)、武漢大學(xué)、南開大學(xué)、浪潮電子信息產(chǎn)業(yè)股份有限公司、中網(wǎng)數(shù)據(jù)(北京)股份有限公司等十家高校和企業(yè)單位共同承擔(dān)的云計算和大數(shù)據(jù)專項(xiàng)項(xiàng)目。項(xiàng)目啟動于2018年5月,執(zhí)行期3年。

在應(yīng)用方面,項(xiàng)目團(tuán)隊(duì)與中國鐵路廣州局集團(tuán)有限公司株洲車輛段和湖南新型智慧城市研究院建立了合作,分別在“中歐班列”快速貨運(yùn)列車故障檢測、“天眼工程”大中城市交通監(jiān)控等項(xiàng)目上進(jìn)行了深入研究并積累了大量視頻數(shù)據(jù)。在研究方面,項(xiàng)目團(tuán)隊(duì)承擔(dān)或參與多項(xiàng)973、863計劃項(xiàng)目、國家自然科學(xué)基金系列項(xiàng)目,在并行與分布式系統(tǒng)、海量數(shù)據(jù)處理、海量存儲系統(tǒng)、內(nèi)存計算、可重構(gòu)計算、視頻處理等領(lǐng)域開展了一系列前沿性研究工作。在 SIGMOD、VLDB、ICDE、AAAI、IJCAI、HPDC、IPDPS、TPDS、TKDE、TOC、JPDC等重要國際會議和期刊發(fā)表論文150余篇,成果應(yīng)用于交通銀行、華為、浪潮、NEC、江蘇移動、國家電網(wǎng)等大規(guī)模數(shù)據(jù)處理系統(tǒng)和軟件產(chǎn)品中。項(xiàng)目團(tuán)隊(duì)成員先后參與研制銀河系列巨型機(jī)、天河系列超級計算機(jī)及應(yīng)用(“天河二號”超級計算機(jī)在 Top500 排行榜上獲六連冠),并負(fù)責(zé)國家超級計算長沙中心運(yùn)營。

研究內(nèi)容

項(xiàng)目根據(jù)三個科學(xué)問題設(shè)置了七項(xiàng)研究內(nèi)容,分為五個課題進(jìn)行研發(fā)(如圖2所示)。

圖2. 項(xiàng)目的課題設(shè)置

課題一:面向大數(shù)據(jù)集的數(shù)據(jù)流編程模型及示范應(yīng)用

課題一主要應(yīng)對科學(xué)問題一,對數(shù)據(jù)流編程模型所涉及的主要關(guān)鍵技術(shù)進(jìn)行系統(tǒng)研究,旨在對傳統(tǒng)的編程模型進(jìn)行擴(kuò)展,定義數(shù)據(jù)流編程語言的原語及其編譯前端等工具鏈。課題一產(chǎn)生數(shù)據(jù)流中間代碼,用于描述應(yīng)用層處理的語義,同時結(jié)合“中歐班列”和“天眼工程”兩個場景,利用數(shù)據(jù)流編程模型開發(fā)示范應(yīng)用系統(tǒng),以此驗(yàn)證CPU-GPU異構(gòu)體系結(jié)構(gòu)對高通量視頻處理的提升效果。

課題二:面向數(shù)據(jù)流的分布式處理引擎與性能優(yōu)化

課題二對三個科學(xué)問題都有涉及,傳統(tǒng)數(shù)據(jù)處理系統(tǒng)根據(jù)應(yīng)用場景的不同,分為處理歷史數(shù)據(jù)的批處理、處理在線數(shù)據(jù)的流處理兩類。課題二通過控制數(shù)據(jù)集的處理窗口等方式,兼容現(xiàn)有的批處理和流處理兩類任務(wù),構(gòu)建面向數(shù)據(jù)流的分布式處理引擎。課題二編譯和解析課題一輸出的“聲明式”的數(shù)據(jù)流中間代碼,結(jié)合異構(gòu)計算集群的信息,輸出刻畫分布式異構(gòu)環(huán)境下如何具體執(zhí)行的任務(wù)拓?fù)鋱D。

課題三:分布式異構(gòu)系統(tǒng)資源管理及數(shù)據(jù)流性能分析工具

課題三主要應(yīng)對科學(xué)問題二和三,提供分布式下異構(gòu)資源的管理,研究數(shù)據(jù)流任務(wù)拓?fù)鋱D的合理異構(gòu)資源配置、調(diào)度和管理,對其他的課題的開展發(fā)揮著重要作用。異構(gòu)集群中的每個執(zhí)行節(jié)點(diǎn)都包含GPU 和CPU等異構(gòu)資源,需要進(jìn)行統(tǒng)一的資源管理。不合理的資源管理,使得某些節(jié)點(diǎn)因?yàn)槿蝿?wù)多造成資源嚴(yán)重過載,或者因?yàn)槿蝿?wù)少而閑置資源,這使得資源的利用率非常低。此外,數(shù)據(jù)流任務(wù)在執(zhí)行過程中,面臨數(shù)據(jù)流量、數(shù)據(jù)傾斜等變化因素,因此需要監(jiān)控和分析數(shù)據(jù)流應(yīng)用的性能參數(shù)。

課題四:異構(gòu)體系結(jié)構(gòu)的分布式數(shù)據(jù)存儲與管理

課題四主要應(yīng)對科學(xué)問題三,實(shí)現(xiàn)面向多種數(shù)據(jù)的統(tǒng)一物理存儲模型和元數(shù)據(jù)管理,為數(shù)據(jù)流處理系統(tǒng)提供高效的數(shù)據(jù)緩存和可靠的數(shù)據(jù)持久化機(jī)制。課題四旨在解決在高通量的數(shù)據(jù)流處理模型中低效的數(shù)據(jù)存儲訪問問題,以及分布式數(shù)據(jù)處理的容錯問題。基于數(shù)據(jù)流處理模型,面向高通量的實(shí)時數(shù)據(jù)處理應(yīng)用,提供中間結(jié)果和檢查點(diǎn)的持久化。

課題五: 面向CPU-GPU異構(gòu)節(jié)點(diǎn)的混合執(zhí)行引擎

課題五主要應(yīng)對科學(xué)問題二,異構(gòu)體系結(jié)構(gòu)節(jié)點(diǎn)執(zhí)行引擎部分主要包括基于GPU的粗粒度并行、利用單SM部署多kernel的數(shù)據(jù)流圖細(xì)粒度流水并行,以及異構(gòu)系統(tǒng)任務(wù)劃分和負(fù)載均衡。課題五實(shí)現(xiàn)基于CPU-GPU粗/細(xì)粒度并行,并在單節(jié)點(diǎn)內(nèi)部實(shí)現(xiàn)CPU和GPU間的任務(wù)劃分和負(fù)載均衡。存儲訪問優(yōu)化則通過節(jié)點(diǎn)內(nèi)的CPU和GPU統(tǒng)一虛擬地址共享,以實(shí)現(xiàn)數(shù)據(jù)流的低延遲處理。課題五還將研究數(shù)據(jù)與模型的壓縮技術(shù),保證計算精度的同時,提高計算吞吐率。

本項(xiàng)目的五個課題之間既相互聯(lián)系又相對獨(dú)立,課題間的關(guān)系如圖3所示。

圖3. 課題之間的邏輯關(guān)系

課題一旨在根據(jù)應(yīng)用的處理邏輯,產(chǎn)生數(shù)據(jù)流中間代碼,并調(diào)用課題二的處理接口,從而實(shí)現(xiàn)數(shù)據(jù)流的執(zhí)行。此外,課題一使用課題四提供的多層存儲系統(tǒng)緩存高通量視頻示范應(yīng)用中攝像頭產(chǎn)生的實(shí)時視頻流數(shù)據(jù)流,解決視頻注入和視頻處理的不匹配。

課題二根據(jù)其他課題的研究成果,進(jìn)行分布式處理引擎的性能優(yōu)化。利用課題三提供的異構(gòu)體系集群的資源使用和數(shù)據(jù)流性能信息,實(shí)現(xiàn)數(shù)據(jù)流任務(wù)拓?fù)涞撵o態(tài)優(yōu)化和動態(tài)優(yōu)化。課題二需要考慮課題四的存儲和計算的高效劃分,降低數(shù)據(jù)傳輸開銷。為了避免系統(tǒng)故障導(dǎo)致數(shù)據(jù)流應(yīng)用的狀態(tài)發(fā)生丟失,需要結(jié)合課題四提供的檢查點(diǎn)持久化,共同實(shí)現(xiàn)數(shù)據(jù)流應(yīng)用的容錯處理。

課題三為課題二分配分布式異構(gòu)計算資源。數(shù)據(jù)流任務(wù)在執(zhí)行過程中,面臨任務(wù)執(zhí)行中數(shù)據(jù)流量、數(shù)據(jù)傾斜等變化因素,因此課題三提供的運(yùn)行時性能分析調(diào)優(yōu)是課題二進(jìn)行數(shù)據(jù)流處理任務(wù)靜態(tài)優(yōu)化和動態(tài)優(yōu)化的基礎(chǔ)。

課題四通過實(shí)現(xiàn)面向多種數(shù)據(jù)的統(tǒng)一物理存儲模型和元數(shù)據(jù)管理,為課題一的示范應(yīng)用提供高效穩(wěn)定的分布式數(shù)據(jù)緩存,為課題五提供多種針對性的數(shù)據(jù)訪問方式和存儲操作原語,也有效地避免數(shù)據(jù)訪問瓶頸,支撐課題五中的低延遲處理。對檢查點(diǎn)的分布式持久化機(jī)制也為課題二實(shí)現(xiàn)數(shù)據(jù)流容錯處理提供保障。

課題五充分發(fā)揮CPU-GPU異構(gòu)體系結(jié)構(gòu)的性能優(yōu)勢,對課題二產(chǎn)生的任務(wù)拓?fù)渥訄D進(jìn)行加速執(zhí)行。課題五利用課題三提供的CPU-GPU異構(gòu)資源抽象,實(shí)現(xiàn)CPU-GPU混合比例的優(yōu)化。此外,課題五通過異構(gòu)地址空間共享技術(shù),優(yōu)化課題四提供的數(shù)據(jù)訪問功能。

預(yù)期成果

項(xiàng)目的預(yù)期成果包括面向CPU-GPU異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù):含數(shù)據(jù)流編程工具鏈、統(tǒng)一數(shù)據(jù)處理引擎、異構(gòu)資源管理和數(shù)據(jù)管理系統(tǒng),以及高通量視頻處理GPU加速模塊等,實(shí)現(xiàn)“中歐班列”快速貨運(yùn)列車故障檢測、“天眼工程”大中城市交通監(jiān)控等高通量視頻典型應(yīng)用示范。

圖4. 列車安全系統(tǒng) & “天眼工程”

圖5. 交通檢測和列車故障檢測初步效果圖

文案 | 王嘉倫

排版 | 壽暖瑜

華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院

總結(jié)

以上是生活随笔為你收集整理的海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。