日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop下水环境模拟集群运算模式

發(fā)布時(shí)間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop下水环境模拟集群运算模式 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop下水環(huán)境模擬集群運(yùn)算模式

馬金鋒1,?唐力2,?饒凱鋒1,?洪綱3,?馬梅1,4

1?中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院生態(tài)環(huán)境研究中心),北京 100085

2?深圳市環(huán)境監(jiān)測中心站,廣東 深圳 518057

3?石家莊市環(huán)境信息中心,河北 石家莊 050051

4?中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院,北京 100190

摘要水環(huán)境數(shù)值模型是模擬、分析及預(yù)測水體中物質(zhì)遷移轉(zhuǎn)化過程及其效應(yīng)的有效工具。水環(huán)境模型的高性能批量計(jì)算是當(dāng)前水環(huán)境模擬研究的熱點(diǎn)。大數(shù)據(jù)技術(shù)中的分布式集群計(jì)算模式為水環(huán)境模擬批量計(jì)算提供一種可行的解決方案。探索了水環(huán)境數(shù)值模型在大數(shù)據(jù)分布式計(jì)算框架下的適應(yīng)性,提出了一種適用于水環(huán)境模擬的大數(shù)據(jù)分布式集群運(yùn)算模式,并通過實(shí)例驗(yàn)證了該運(yùn)算模式的可行性。

關(guān)鍵詞?水環(huán)境模擬?;?集群運(yùn)算?;?大數(shù)據(jù)?;?Hadoop

論文引用格式:

馬金鋒,?唐力,?饒凱鋒,?洪綱,?馬梅.?Hadoop下水環(huán)境模擬集群運(yùn)算模式. ?大數(shù)據(jù)[J], 2019, 5(6):73-83

MA J F, TANG L, RAO K F, HONG G, MA M.Cluster computing mode for water environment simulation based on Hadoop.?Big Data Research[J], 2019, 5(6):73-83


1 引言

水環(huán)境模型是指水體中的污染物(營養(yǎng)物質(zhì)、懸浮物、藻類、有毒物質(zhì)等)隨水流在遷移過程中,因水動(dòng)力和生物化學(xué)等因素的影響而發(fā)生的物理、化學(xué)和生物反應(yīng)的數(shù)學(xué)描述和模擬。水環(huán)境中污染物的遷移轉(zhuǎn)化過程模擬和預(yù)測是水生態(tài)環(huán)境健康診斷、預(yù)測、預(yù)警及控制管理的重要基礎(chǔ),水環(huán)境數(shù)學(xué)模型在國內(nèi)外已有非常廣泛的應(yīng)用,并且成為國內(nèi)外學(xué)者研究的熱點(diǎn)。隨著對(duì)水環(huán)境過程認(rèn)知的進(jìn)步、計(jì)算機(jī)運(yùn)算能力的增強(qiáng)以及模型大量的普及應(yīng)用,水環(huán)境模型取得了快速的發(fā)展,功能日益強(qiáng)大,但模型也變得更加復(fù)雜,這對(duì)運(yùn)算的需求急劇增加。

盡管過去幾十年間計(jì)算機(jī)的運(yùn)算速度和容量得到快速提升,但水環(huán)境模型的高性能批量計(jì)算一直面臨巨大挑戰(zhàn)。綜合運(yùn)用并行技術(shù)和集群技術(shù)提高模型計(jì)算效率已成為環(huán)境領(lǐng)域和高端計(jì)算領(lǐng)域的研究熱點(diǎn)。目前,研究工作主要集中在CPU、GPU獨(dú)立或協(xié)同并行計(jì)算,包括通過單機(jī)多處理器實(shí)現(xiàn)高速計(jì)算能力、與普通計(jì)算機(jī)通過高速網(wǎng)絡(luò)互聯(lián)共享計(jì)算能力實(shí)現(xiàn)集群計(jì)算。前者嚴(yán)重依賴于單機(jī)性能,成本昂貴且計(jì)算速度的提高空間有限;后者將任務(wù)分散到各個(gè)節(jié)點(diǎn)執(zhí)行,適用于計(jì)算密集型的作業(yè),當(dāng)節(jié)點(diǎn)需要訪問的數(shù)據(jù)量較龐大時(shí),網(wǎng)絡(luò)帶寬可能會(huì)成為系統(tǒng)的性能瓶頸。此外,在大規(guī)模分布式計(jì)算環(huán)境下,協(xié)調(diào)各個(gè)進(jìn)程是一個(gè)很大的挑戰(zhàn),其中最困難的是合理處理系統(tǒng)的部分失效問題。從本質(zhì)上講,上述并行和集群技術(shù)都是基于區(qū)域分解和分塊計(jì)算策略的,單算例被分解為多個(gè)子任務(wù)同時(shí)執(zhí)行,以減少執(zhí)行時(shí)間,適合單算例高性能計(jì)算。

在水環(huán)境模擬應(yīng)用領(lǐng)域,水環(huán)境模擬預(yù)測、水污染風(fēng)險(xiǎn)動(dòng)態(tài)預(yù)警、水質(zhì)目標(biāo)管理、突發(fā)水污染事故應(yīng)急決策、洪水風(fēng)險(xiǎn)制圖等應(yīng)用對(duì)模型建模過程(參數(shù)率定、不確定性分析、模型驗(yàn)證)以及應(yīng)用過程(情景分析)均提出了批量計(jì)算需求。單算例模式不適合批量計(jì)算應(yīng)用。

大數(shù)據(jù)技術(shù)提供了一種新興海量數(shù)據(jù)管理和計(jì)算模式,尤其是以Hadoop為代表的開源大數(shù)據(jù)平臺(tái),采用無共享(sharednothing)框架,能夠?qū)崿F(xiàn)失敗檢測,并提供良好的橫向擴(kuò)展和容錯(cuò)處理機(jī)制。這種分布式集群計(jì)算架構(gòu)隱藏了并發(fā)、容錯(cuò)、數(shù)據(jù)分布和均衡負(fù)載等細(xì)節(jié),可以運(yùn)行在一群廉價(jià)的PC上,為水環(huán)境模擬批量計(jì)算提供了一種潛在的、經(jīng)濟(jì)可行的解決方案。

本文針對(duì)多算例并行計(jì)算需求,探索水環(huán)境模型在大數(shù)據(jù)技術(shù)框架下的適應(yīng)性,提出一種適用于水環(huán)境模型模擬的分布式集群運(yùn)算模式,以解決目前集群計(jì)算面臨的橫向擴(kuò)展和容錯(cuò)處理問題,即不但需要將計(jì)算“本地化”以節(jié)約網(wǎng)絡(luò)帶寬,從而獲得高效率的計(jì)算性能,而且需要設(shè)計(jì)良好的機(jī)器故障處理(容錯(cuò))機(jī)制以保障計(jì)算的可靠性。實(shí)例驗(yàn)證了開源大數(shù)據(jù)平臺(tái)Hadoop環(huán)境下Delft3D水環(huán)境模型集群運(yùn)算模式,證明該模式的可用性、可擴(kuò)展性和可靠性。

2 水環(huán)境模擬集群運(yùn)算模式與構(gòu)架

2.1 運(yùn)算模式

基于大數(shù)據(jù)技術(shù)中的分布式并行計(jì)算框架實(shí)現(xiàn)的集群運(yùn)算模式屬于多算例多任務(wù)分解并行計(jì)算,即每一個(gè)算例對(duì)應(yīng)一個(gè)計(jì)算任務(wù),這種模式適合大批量模型計(jì)算,應(yīng)用面更廣,其核心是并行分布式存儲(chǔ)和計(jì)算 。位置感知將計(jì)算移動(dòng)到數(shù)據(jù)所在的位置(存儲(chǔ))是一個(gè)重大的進(jìn)步,即通過“數(shù)據(jù)本地化”可減少數(shù)據(jù)遷移,以節(jié)約網(wǎng)絡(luò)帶寬,獲得高效率的計(jì)算性能。分布式存儲(chǔ)將數(shù)據(jù)分散存儲(chǔ)到多個(gè)節(jié)點(diǎn),并且同一份數(shù)據(jù)在不同節(jié)點(diǎn)上保存多個(gè)副本,不但實(shí)現(xiàn)了數(shù)據(jù)本地化,還實(shí)現(xiàn)了數(shù)據(jù)冗余備份,同時(shí)保障了數(shù)據(jù)的安全性。分布式計(jì)算則通過位置感知將算法/模型等計(jì)算資源分發(fā)到數(shù)據(jù)的所在位置,達(dá)到“計(jì)算本地化優(yōu)化”的目的。

水環(huán)境模擬集群運(yùn)算模式充分借鑒“數(shù)據(jù)本地化”和“計(jì)算本地化”的思想,將模擬場景模型配置文件分布到各個(gè)計(jì)算節(jié)點(diǎn)以實(shí)現(xiàn)“配置文件本地化”,模型計(jì)算程序則通過感知定位并將程序分發(fā)到模型配置文件所在節(jié)點(diǎn),從而實(shí)現(xiàn)“計(jì)算程序本地化”。圖1描述了水環(huán)境模擬集群運(yùn)算模式。配置文件的分布式存儲(chǔ)冗余備份機(jī)制縮短了計(jì)算程序?qū)ぶ犯兄獣r(shí)間。

水環(huán)境模型的分布式計(jì)算包括位置感知、本地化計(jì)算和計(jì)算結(jié)果分布式存儲(chǔ)3個(gè)過程。分布式分發(fā)機(jī)制可以快速定位到配置文件所在的計(jì)算節(jié)點(diǎn),水環(huán)境模型執(zhí)行文件被自動(dòng)下載到計(jì)算節(jié)點(diǎn),并創(chuàng)建運(yùn)行空間,啟動(dòng)模型讀取配置文件,執(zhí)行模型本地化計(jì)算,最后將計(jì)算結(jié)果寫入分布式存儲(chǔ)。

圖1???水環(huán)境模擬集群運(yùn)算模式

2.2 技術(shù)架構(gòu)

綜合現(xiàn)有水環(huán)境模型和大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀,圖2給出了水環(huán)境模擬集群運(yùn)算模式實(shí)現(xiàn)的技術(shù)架構(gòu)。實(shí)現(xiàn)流程為:在“數(shù)據(jù)”層形成“模型/算法”層運(yùn)行所需的基礎(chǔ)配置文件集合;然后文件集合和模型/算法被上傳到“存儲(chǔ)”層,并以Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)格式存儲(chǔ);在“計(jì)算”層中,計(jì)算作業(yè)調(diào)度啟動(dòng)離線批量計(jì)算程序,實(shí)現(xiàn)多個(gè)模型/算法的分布式并發(fā)計(jì)算,計(jì)算結(jié)果解析后被存入HBase數(shù)據(jù)庫,“計(jì)算”層利用Spark分析HBase數(shù)據(jù)庫中存儲(chǔ)的記錄,以支持業(yè)務(wù)應(yīng)用。

水環(huán)境數(shù)值模型模擬計(jì)算是典型的CPU密集型運(yùn)算,具有計(jì)算性能需求高、運(yùn)行時(shí)間長、計(jì)算結(jié)果文件大的特點(diǎn)。針對(duì)此特點(diǎn),“計(jì)算”層中需要篩選合適的技術(shù)框架,其中MapReduce和Spark均屬于分布式計(jì)算框架,前者處理“本地化”模型輸入文件數(shù)據(jù),后者處理“本地化”模型輸出的結(jié)果數(shù)據(jù)。MapReduce適合離線式批量計(jì)算,Spark 適合內(nèi)存式迭代計(jì)算,此外還引入了QUARTZ定時(shí)任務(wù)框架,用于周期性執(zhí)行的計(jì)算作業(yè)調(diào)度管理。鑒于數(shù)值模型計(jì)算耗時(shí)的特點(diǎn),采用MapReduce離線式計(jì)算框架,而對(duì)于計(jì)算結(jié)果的交互式分析,則采用Spark內(nèi)存迭代式計(jì)算框架。

圖2???水環(huán)境模擬集群運(yùn)算模式技術(shù)架構(gòu)

在分布式文件存儲(chǔ)和數(shù)據(jù)庫存儲(chǔ)方面,HDFS和HBase已經(jīng)得到廣泛應(yīng)用。水環(huán)境模型配置和原始模擬結(jié)果通常以文件格式存儲(chǔ),適合采用HDFS存儲(chǔ);模擬結(jié)果解析后的結(jié)構(gòu)化數(shù)據(jù)則適合采用HBase數(shù)據(jù)庫進(jìn)行存儲(chǔ)。此外對(duì)于其他常用的數(shù)據(jù),如模型運(yùn)算相關(guān)基本信息描述、集群軟硬件資源描述等,適合采用常規(guī)關(guān)系型數(shù)據(jù)庫或者其他外部存儲(chǔ)方式。

數(shù)值模型/算法是水環(huán)境模擬的計(jì)算引擎和核心價(jià)值,一般根據(jù)實(shí)際應(yīng)用側(cè)重的功能需求來選擇合適的模型。基于開源、具有商業(yè)應(yīng)用背景和完善的社區(qū)技術(shù)支持等篩選依據(jù),圖2推薦Delft3D和SELFE 2種水動(dòng)力水質(zhì)模型,此外還包括TELEMAC、EFDC等其他模型。針對(duì)大規(guī)模集群計(jì)算產(chǎn)生的模擬結(jié)果分析,在技術(shù)架構(gòu)的“模型/算法”層集成機(jī)器學(xué)習(xí)算法庫,如Apache Mahout、Spark MLib等。為了支持用戶自定義算法,在“模型/算法”層也提供用戶自定義函數(shù)。鑒于模擬結(jié)果存儲(chǔ)在HBase中,因而推薦采用Spark實(shí)現(xiàn)自定義操作。

“數(shù)據(jù)”層中定義了數(shù)值模型/算法運(yùn)行所需要的一系列基礎(chǔ)配置文件。典型的水環(huán)境模型配置文件包括研究區(qū)網(wǎng)格剖分、地形插值、初始場、邊界條件設(shè)定等。根據(jù)參數(shù)率定、不確定性分析及情景決策的應(yīng)用需要,可形成一系列場景文件集合。

3 應(yīng)用案例

3.1 模式設(shè)計(jì)

以Hadoop MapReduce環(huán)境下Delft3D模型運(yùn)算為例,驗(yàn)證集群運(yùn)算模式的可行性。Delft3D模型由荷蘭WL|Delft Hydraulics公司開發(fā),用于河流、湖泊、水庫、河口和海岸等自由地表水環(huán)境的水動(dòng)力和水生態(tài)計(jì)算。Delft3D由7個(gè)模塊組成,包括:水動(dòng)力模塊(Delft3DFLOW)、波浪模塊(Delft3D–WAVE)、水質(zhì)模塊(Delft3D-WAQ)、顆粒跟蹤模塊(Delft3D-PART)、生態(tài)模塊(Delft3D–ECO)、泥沙輸移模塊(Delft3D-SED)和動(dòng)力地貌模塊(Delft3D-MOR)。這些模塊功能獨(dú)立且相互聯(lián)系,每一個(gè)模塊都可單獨(dú)執(zhí)行或與一個(gè)或多個(gè)其他模塊組合執(zhí)行,能夠模擬二維和三維水流、波浪、水質(zhì)、生態(tài)、泥沙輸移及床底地貌以及各個(gè)過程之間的相互作用。Delft3D模型是目前國際上先進(jìn)的水動(dòng)力-水質(zhì)模型之一,在國際上應(yīng)用十分廣泛。圖3中水環(huán)境模擬集群運(yùn)算模式設(shè)計(jì)的核心在于將Delft3D模型的每個(gè)參數(shù)集文件通過集群分發(fā)機(jī)制分布到各個(gè)數(shù)據(jù)節(jié)點(diǎn),集群通過位置感知機(jī)制將計(jì)算程序定位到數(shù)據(jù)節(jié)點(diǎn),在節(jié)點(diǎn)上通過讀取參數(shù)集文件,重構(gòu)模型配置文件,并完成模型計(jì)算過程。

圖3???水環(huán)境模擬集群MapReduce運(yùn)算核心流程

3.2 集群環(huán)境

Hadoop采用傳統(tǒng)的主/從框架體系,集群搭建中至少采用3臺(tái)服務(wù)器,一臺(tái)服務(wù)器作為集群的主節(jié)點(diǎn),即各稱節(jié)點(diǎn)(NameNode)。NameNode的失敗會(huì)導(dǎo)致集群失敗。為了保障NameNode故障時(shí)恢復(fù)集群運(yùn)轉(zhuǎn),選擇另外一臺(tái)服務(wù)器作為NameNode的備份節(jié)點(diǎn),即第二名稱節(jié)點(diǎn)(secondary NameNode)。NameNode負(fù)責(zé)管理整個(gè)文件系統(tǒng),維護(hù)和更新文件的分塊、存儲(chǔ)信息,監(jiān)視文件系統(tǒng)的健康狀態(tài)。為了維護(hù)整個(gè)文件系統(tǒng),NameNode需要在內(nèi)存磁盤中進(jìn)行大量的讀寫操作,這些操作會(huì)搶占計(jì)算資源,因此,通常托管NameNode的機(jī)器不再承擔(dān)數(shù)據(jù)節(jié)點(diǎn)(DataNode)和任務(wù)追蹤器(TaskTracker)任務(wù)。剩余集群同時(shí)作為TaskTracker和DataNode。

表1中采用7臺(tái)機(jī)器搭建Hadoop集群,其中“Master”在集群中承擔(dān)NameNode和作業(yè)追蹤器(JobTracker)的角色,“Master2”承擔(dān)secondary NameNode的角色,“s200~s204”承擔(dān)DataNode和TaskTracker的角色。7臺(tái)機(jī)器通過千兆交換機(jī)進(jìn)行網(wǎng)絡(luò)連接,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4???Hadoop集群網(wǎng)絡(luò)結(jié)構(gòu)

3.3 實(shí)現(xiàn)流程

圖5按照“情景定義-集群計(jì)算”2層結(jié)構(gòu)描述了實(shí)現(xiàn)流程。“情景定義”負(fù)責(zé)為模型運(yùn)行提供一系列不同的場景文件,它包括模型定義、參數(shù)提取和參數(shù)集定義3個(gè)部分。圖6中,模型定義過程提供了水環(huán)境數(shù)值模型運(yùn)行的一系列基礎(chǔ)配置文件,包括研究區(qū)網(wǎng)格剖分、地形插值、邊界條件設(shè)定、初始化狀態(tài)設(shè)定等過程對(duì)應(yīng)的參數(shù)設(shè)置文件,這些文件由一個(gè)項(xiàng)目工程統(tǒng)一進(jìn)行管理;參 數(shù)提取過程根據(jù)參數(shù)率定、不確定性分析及情景決策的需要,從模型定義文件中選取相應(yīng)的參數(shù),如河床底部糙率、紊動(dòng)粘滯系數(shù)、污染物降解系數(shù)等;參數(shù)集定義過程將上述參數(shù)采用拉丁超立方抽樣,生成一系列參數(shù)集文件,該文件與基礎(chǔ)配置文件壓縮后存入HDFS,副本數(shù)默認(rèn)取3;計(jì)算任務(wù)分發(fā)過程中,“集群運(yùn)算”負(fù)責(zé)搭建集群運(yùn)算環(huán)境,并將參數(shù)集定義過程中的參數(shù)集文件分發(fā)到集群的計(jì)算節(jié)點(diǎn)(task slot);計(jì)算任務(wù)執(zhí)行過程在每個(gè)計(jì)算節(jié)點(diǎn)上讀取參數(shù)集文件,重構(gòu)模型配置文件,執(zhí)行模型計(jì)算,并將模型計(jì)算結(jié)果存儲(chǔ)到集群。

圖5???水環(huán)境模擬集群運(yùn)算模式實(shí)現(xiàn)流程

圖6???運(yùn)行時(shí)間/計(jì)算節(jié)點(diǎn)個(gè)數(shù)對(duì)比

3.4 實(shí)驗(yàn)設(shè)計(jì)

為了測試集群的可用性,同時(shí)也為了確保測試過程的可復(fù)制性,模型文件采用官方弗里斯蘭潮汐口(Frisian tidal inlet)案例;為了測試不同模型大小對(duì)集群運(yùn)算過程的影響,案例的模擬時(shí)間分別設(shè)計(jì)為1年、半年和1個(gè)月;為了測試集群的可靠性和可擴(kuò)展性,設(shè)計(jì)了動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試實(shí)驗(yàn)。集群計(jì)算性能評(píng)價(jià)采用加速比指標(biāo),加速比是同一個(gè)計(jì)算任務(wù)在單處理器系統(tǒng)和并行處理器系統(tǒng)中運(yùn)行消耗的時(shí)間比率,用來衡量并行系統(tǒng)或程序并行化的性能和效果。加速比計(jì)算式為SN=T1/TN,其中N指計(jì)算節(jié)點(diǎn)的數(shù)量,T1指單計(jì)算節(jié)點(diǎn)完成計(jì)算的用時(shí),TN指N個(gè)計(jì)算節(jié)點(diǎn)完成計(jì)算的用時(shí)。

3.5 測試結(jié)果

圖6表明,不論是常規(guī)的單作業(yè)多任務(wù)模式(集群只有唯一一個(gè)job,內(nèi)含多個(gè)task算例),還是多作業(yè)單任務(wù)模式(集群擁有多個(gè)job,每個(gè)job只含有唯一的task算例),集群成功地實(shí)現(xiàn)了所有計(jì)算任務(wù),證明Hadoop MapReduce環(huán)境下Delft3D模型集群運(yùn)算模式的可行性。此外,上述2種作業(yè)模式隨著計(jì)算節(jié)點(diǎn)的增加呈現(xiàn)出以下規(guī)律。

首先,隨著計(jì)算節(jié)點(diǎn)的增加,集群的運(yùn)行時(shí)間顯著降低。起初,圖6(a)的總運(yùn)行時(shí)間略高于圖6(b)的總運(yùn)行時(shí)間,隨著計(jì)算節(jié)點(diǎn)的增加,運(yùn)行時(shí)間的降幅明顯高于后者。而且,隨著計(jì)算節(jié)點(diǎn)的增加,模型復(fù)雜度和運(yùn)行時(shí)間也呈現(xiàn)出規(guī)律:低復(fù)雜度模型(模型3)的運(yùn)行時(shí)間降幅明顯高于中復(fù)雜度模型(模型2),中復(fù)雜度模型的運(yùn)行時(shí)間降幅明顯高于高復(fù)雜度模型(模型1)。總體上,圖6(a)中模型的運(yùn)行時(shí)間降幅分別高于圖6(b)中相應(yīng)模型的運(yùn)行時(shí)間降幅。

其次,圖7中集群的加速比與計(jì)算節(jié)點(diǎn)呈現(xiàn)近似線性關(guān)系:隨著節(jié)點(diǎn)個(gè)數(shù)的增加,集群加速比有明顯的偏離趨勢。相對(duì)于圖7(b),圖7(a)的加速比更接近理想值。除了計(jì)算節(jié)點(diǎn)為1時(shí)兩者加速比均接近理想值1之外,圖7(a)明顯優(yōu)于圖7(b)。當(dāng)計(jì)算節(jié)點(diǎn)為5時(shí),圖7(a)3種模型(模型3、模型2、模型1)的加速比分別為4.08、4.22和4.25,圖7(b)中的加速比分別為3.89、4.22和3.89。圖7(a)稍優(yōu)于圖7(b),主要?dú)w結(jié)于前者具有更合理的集群設(shè)置。圖7(a)中總?cè)蝿?wù)數(shù)等于總模擬數(shù),因此作業(yè)被分為多個(gè)任務(wù),這有利于任務(wù)負(fù)載均衡和充分利用計(jì)算資源。


圖7???加速比/計(jì)算節(jié)點(diǎn)個(gè)數(shù)對(duì)比

而且,模型的大小與加速比在總體上呈現(xiàn)相關(guān)關(guān)系,集群中低復(fù)雜度模型(模型1)獲得的加速比明顯高于中復(fù)雜度模型(模型2),中復(fù)雜度模型獲得的加速比明顯高于高復(fù)雜度模型(模型3)。不考慮模型復(fù)雜度,除了當(dāng)計(jì)算節(jié)點(diǎn)為1時(shí),2種模式加速比類似接近理想值1之外,隨著計(jì)算節(jié)點(diǎn)增加,3種不同復(fù)雜度模型的加速比均與計(jì)算節(jié)點(diǎn)呈現(xiàn)近似線性關(guān)系,且圖7(a)中不同復(fù)雜度模型獲得的加速比均明顯高于圖7(b)中對(duì)應(yīng)模型獲得的加速比。復(fù)雜度越高的模型會(huì)損失越多的加速比,其主要原因在于模型計(jì)算越復(fù)雜,對(duì)磁盤I/O需求越大,模擬結(jié)果寫入磁盤耗時(shí)越長。

最后,集群中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試(圖8)結(jié)果顯示,在作業(yè)1~作業(yè)19的運(yùn)行過程中,每個(gè)作業(yè)運(yùn)行時(shí)間維持在600 s;當(dāng)?shù)?0個(gè)作業(yè)運(yùn)行時(shí),關(guān)閉2個(gè)計(jì)算節(jié)點(diǎn),運(yùn)行時(shí)間迅速升至1 300 s左右,然后平緩降低至900 s左右(位于作業(yè)39處);當(dāng)在作業(yè)40處增加一個(gè)計(jì)算節(jié)點(diǎn)時(shí),作業(yè)運(yùn)行時(shí)間緩慢降至740 s左右(位于作業(yè)59處);當(dāng)在作業(yè)60處再增加一個(gè)計(jì)算節(jié)點(diǎn)時(shí),集群恢復(fù)起始狀態(tài),作業(yè)運(yùn)行狀況和作業(yè)1~作業(yè)19類似;當(dāng)在作業(yè)79處關(guān)閉3個(gè)計(jì)算節(jié)點(diǎn)時(shí),作業(yè)80的運(yùn)行時(shí)間迅速升至1 500 s左右,然后緩慢降到1 200 s左右,直至剩余作業(yè)計(jì)算完成。研究結(jié)果表明,集群運(yùn)行過程中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)會(huì)影響計(jì)算作業(yè)的執(zhí)行過程,但是不會(huì)造成計(jì)算任務(wù)的失敗和集群環(huán)境崩潰,證明集群模式具有優(yōu)秀的容錯(cuò)性、可擴(kuò)展性和可靠性。

圖8???集群中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試

4 結(jié)束語

水環(huán)境模型結(jié)構(gòu)的日益復(fù)雜和應(yīng)用的不斷深入,對(duì)高性能計(jì)算和海量數(shù)據(jù)處理提出了新挑戰(zhàn)。積極探索利用大數(shù)據(jù)技術(shù)將各種計(jì)算資源聚合,實(shí)現(xiàn)協(xié)同計(jì)算,是現(xiàn)代水環(huán)境模擬面臨的一個(gè)迫切需求。本文基于大數(shù)據(jù)分布式計(jì)算框架,建立了一種適用于水環(huán)境模型批量模擬計(jì)算的運(yùn)算模式。實(shí)例驗(yàn)證了Hadoop MapReduce環(huán)境下Delft3D模型集群運(yùn)算模式的可行性,結(jié)果表明集群運(yùn)算模式可顯著加快運(yùn)算過程,可提供良好的橫向擴(kuò)展和容錯(cuò)的模型運(yùn)行環(huán)境,是解決水環(huán)境模擬大規(guī)模批量計(jì)算需求的一種理想方法。集群運(yùn)算模式的軟件體系基于開源技術(shù)架構(gòu),硬件體系基于商業(yè)PC或者服務(wù)器,因此,集群構(gòu)建具有過程靈活、節(jié)約成本的特點(diǎn),適用于參數(shù)率定、不確定性分析以及情景決策等批量計(jì)算應(yīng)用場景。同時(shí)該模式也適用于其他環(huán)境建模,具有較強(qiáng)的通用性。

作者簡介

馬金鋒(1978-),男,中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院生態(tài)環(huán)境研究中心)助理研究員,主要研究方向?yàn)樗h(huán)境數(shù)值模擬 。

唐力(1967-),男,深圳市環(huán)境監(jiān)測中心站高級(jí)工程師,主要研究方向?yàn)榄h(huán)境監(jiān)測 。

饒凱鋒(1976-),男,中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院生態(tài)環(huán)境研究中心)助理研究員,主要研究方向?yàn)樗鷳B(tài)毒理學(xué)、環(huán)境預(yù)警監(jiān)測與物聯(lián)網(wǎng) 。

洪綱(1974-),男,石家莊市環(huán)境信息中心高級(jí)工程師,主要研究方向?yàn)榄h(huán)境大數(shù)據(jù)、環(huán)境監(jiān)測與管理 。

馬梅(1967-),女,中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院生態(tài)環(huán)境研究中心)研究員,主要研究方向?yàn)樗鷳B(tài)毒理學(xué) 。

《大數(shù)據(jù)》期刊

《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。

關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容

往期文章回顧

人在回路的數(shù)據(jù)準(zhǔn)備技術(shù)研究進(jìn)展

工業(yè)時(shí)序大數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)管護(hù)技術(shù)及應(yīng)用

基于數(shù)據(jù)空間的電子病歷數(shù)據(jù)融合與應(yīng)用平臺(tái)

基于APMSSGA-LSTM的容器云資源預(yù)測


創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的Hadoop下水环境模拟集群运算模式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。