當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop下水环境模拟集群运算模式

發(fā)布時(shí)間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop下水环境模拟集群运算模式小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop下水環(huán)境模擬集群運(yùn)算模式

馬金鋒¹,?唐力²,?饒凱鋒¹,?洪綱³,?馬梅^1,4

1?中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室（中國科學(xué)院生態(tài)環(huán)境研究中心），北京 100085

2?深圳市環(huán)境監(jiān)測中心站，廣東深圳 518057

3?石家莊市環(huán)境信息中心，河北石家莊 050051

4?中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院，北京 100190

摘要：水環(huán)境數(shù)值模型是模擬、分析及預(yù)測水體中物質(zhì)遷移轉(zhuǎn)化過程及其效應(yīng)的有效工具。水環(huán)境模型的高性能批量計(jì)算是當(dāng)前水環(huán)境模擬研究的熱點(diǎn)。大數(shù)據(jù)技術(shù)中的分布式集群計(jì)算模式為水環(huán)境模擬批量計(jì)算提供一種可行的解決方案。探索了水環(huán)境數(shù)值模型在大數(shù)據(jù)分布式計(jì)算框架下的適應(yīng)性，提出了一種適用于水環(huán)境模擬的大數(shù)據(jù)分布式集群運(yùn)算模式，并通過實(shí)例驗(yàn)證了該運(yùn)算模式的可行性。

關(guān)鍵詞：?水環(huán)境模擬?;?集群運(yùn)算?;?大數(shù)據(jù)?;?Hadoop

論文引用格式：

馬金鋒,?唐力,?饒凱鋒,?洪綱,?馬梅.?Hadoop下水環(huán)境模擬集群運(yùn)算模式. ?大數(shù)據(jù)[J], 2019, 5(6）：73-83

MA J F, TANG L, RAO K F, HONG G, MA M.Cluster computing mode for water environment simulation based on Hadoop.?Big Data Research[J], 2019, 5(6):73-83

1 引言

水環(huán)境模型是指水體中的污染物（營養(yǎng)物質(zhì)、懸浮物、藻類、有毒物質(zhì)等）隨水流在遷移過程中，因水動(dòng)力和生物化學(xué)等因素的影響而發(fā)生的物理、化學(xué)和生物反應(yīng)的數(shù)學(xué)描述和模擬。水環(huán)境中污染物的遷移轉(zhuǎn)化過程模擬和預(yù)測是水生態(tài)環(huán)境健康診斷、預(yù)測、預(yù)警及控制管理的重要基礎(chǔ)，水環(huán)境數(shù)學(xué)模型在國內(nèi)外已有非常廣泛的應(yīng)用，并且成為國內(nèi)外學(xué)者研究的熱點(diǎn)。隨著對(duì)水環(huán)境過程認(rèn)知的進(jìn)步、計(jì)算機(jī)運(yùn)算能力的增強(qiáng)以及模型大量的普及應(yīng)用，水環(huán)境模型取得了快速的發(fā)展，功能日益強(qiáng)大，但模型也變得更加復(fù)雜，這對(duì)運(yùn)算的需求急劇增加。

盡管過去幾十年間計(jì)算機(jī)的運(yùn)算速度和容量得到快速提升，但水環(huán)境模型的高性能批量計(jì)算一直面臨巨大挑戰(zhàn)。綜合運(yùn)用并行技術(shù)和集群技術(shù)提高模型計(jì)算效率已成為環(huán)境領(lǐng)域和高端計(jì)算領(lǐng)域的研究熱點(diǎn)。目前，研究工作主要集中在CPU、GPU獨(dú)立或協(xié)同并行計(jì)算，包括通過單機(jī)多處理器實(shí)現(xiàn)高速計(jì)算能力、與普通計(jì)算機(jī)通過高速網(wǎng)絡(luò)互聯(lián)共享計(jì)算能力實(shí)現(xiàn)集群計(jì)算。前者嚴(yán)重依賴于單機(jī)性能，成本昂貴且計(jì)算速度的提高空間有限；后者將任務(wù)分散到各個(gè)節(jié)點(diǎn)執(zhí)行，適用于計(jì)算密集型的作業(yè)，當(dāng)節(jié)點(diǎn)需要訪問的數(shù)據(jù)量較龐大時(shí)，網(wǎng)絡(luò)帶寬可能會(huì)成為系統(tǒng)的性能瓶頸。此外，在大規(guī)模分布式計(jì)算環(huán)境下，協(xié)調(diào)各個(gè)進(jìn)程是一個(gè)很大的挑戰(zhàn)，其中最困難的是合理處理系統(tǒng)的部分失效問題。從本質(zhì)上講，上述并行和集群技術(shù)都是基于區(qū)域分解和分塊計(jì)算策略的，單算例被分解為多個(gè)子任務(wù)同時(shí)執(zhí)行，以減少執(zhí)行時(shí)間，適合單算例高性能計(jì)算。

在水環(huán)境模擬應(yīng)用領(lǐng)域，水環(huán)境模擬預(yù)測、水污染風(fēng)險(xiǎn)動(dòng)態(tài)預(yù)警、水質(zhì)目標(biāo)管理、突發(fā)水污染事故應(yīng)急決策、洪水風(fēng)險(xiǎn)制圖等應(yīng)用對(duì)模型建模過程（參數(shù)率定、不確定性分析、模型驗(yàn)證）以及應(yīng)用過程（情景分析）均提出了批量計(jì)算需求。單算例模式不適合批量計(jì)算應(yīng)用。

大數(shù)據(jù)技術(shù)提供了一種新興海量數(shù)據(jù)管理和計(jì)算模式，尤其是以Hadoop為代表的開源大數(shù)據(jù)平臺(tái)，采用無共享（sharednothing）框架，能夠?qū)崿F(xiàn)失敗檢測，并提供良好的橫向擴(kuò)展和容錯(cuò)處理機(jī)制。這種分布式集群計(jì)算架構(gòu)隱藏了并發(fā)、容錯(cuò)、數(shù)據(jù)分布和均衡負(fù)載等細(xì)節(jié)，可以運(yùn)行在一群廉價(jià)的PC上，為水環(huán)境模擬批量計(jì)算提供了一種潛在的、經(jīng)濟(jì)可行的解決方案。

本文針對(duì)多算例并行計(jì)算需求，探索水環(huán)境模型在大數(shù)據(jù)技術(shù)框架下的適應(yīng)性，提出一種適用于水環(huán)境模型模擬的分布式集群運(yùn)算模式，以解決目前集群計(jì)算面臨的橫向擴(kuò)展和容錯(cuò)處理問題，即不但需要將計(jì)算“本地化”以節(jié)約網(wǎng)絡(luò)帶寬，從而獲得高效率的計(jì)算性能，而且需要設(shè)計(jì)良好的機(jī)器故障處理（容錯(cuò)）機(jī)制以保障計(jì)算的可靠性。實(shí)例驗(yàn)證了開源大數(shù)據(jù)平臺(tái)Hadoop環(huán)境下Delft3D水環(huán)境模型集群運(yùn)算模式，證明該模式的可用性、可擴(kuò)展性和可靠性。

2 水環(huán)境模擬集群運(yùn)算模式與構(gòu)架

2.1 運(yùn)算模式

基于大數(shù)據(jù)技術(shù)中的分布式并行計(jì)算框架實(shí)現(xiàn)的集群運(yùn)算模式屬于多算例多任務(wù)分解并行計(jì)算，即每一個(gè)算例對(duì)應(yīng)一個(gè)計(jì)算任務(wù)，這種模式適合大批量模型計(jì)算，應(yīng)用面更廣，其核心是并行分布式存儲(chǔ)和計(jì)算。位置感知將計(jì)算移動(dòng)到數(shù)據(jù)所在的位置（存儲(chǔ)）是一個(gè)重大的進(jìn)步，即通過“數(shù)據(jù)本地化”可減少數(shù)據(jù)遷移，以節(jié)約網(wǎng)絡(luò)帶寬，獲得高效率的計(jì)算性能。分布式存儲(chǔ)將數(shù)據(jù)分散存儲(chǔ)到多個(gè)節(jié)點(diǎn)，并且同一份數(shù)據(jù)在不同節(jié)點(diǎn)上保存多個(gè)副本，不但實(shí)現(xiàn)了數(shù)據(jù)本地化，還實(shí)現(xiàn)了數(shù)據(jù)冗余備份，同時(shí)保障了數(shù)據(jù)的安全性。分布式計(jì)算則通過位置感知將算法/模型等計(jì)算資源分發(fā)到數(shù)據(jù)的所在位置，達(dá)到“計(jì)算本地化優(yōu)化”的目的。

水環(huán)境模擬集群運(yùn)算模式充分借鑒“數(shù)據(jù)本地化”和“計(jì)算本地化”的思想，將模擬場景模型配置文件分布到各個(gè)計(jì)算節(jié)點(diǎn)以實(shí)現(xiàn)“配置文件本地化”，模型計(jì)算程序則通過感知定位并將程序分發(fā)到模型配置文件所在節(jié)點(diǎn)，從而實(shí)現(xiàn)“計(jì)算程序本地化”。圖1描述了水環(huán)境模擬集群運(yùn)算模式。配置文件的分布式存儲(chǔ)冗余備份機(jī)制縮短了計(jì)算程序?qū)ぶ犯兄獣r(shí)間。

水環(huán)境模型的分布式計(jì)算包括位置感知、本地化計(jì)算和計(jì)算結(jié)果分布式存儲(chǔ)3個(gè)過程。分布式分發(fā)機(jī)制可以快速定位到配置文件所在的計(jì)算節(jié)點(diǎn)，水環(huán)境模型執(zhí)行文件被自動(dòng)下載到計(jì)算節(jié)點(diǎn)，并創(chuàng)建運(yùn)行空間，啟動(dòng)模型讀取配置文件，執(zhí)行模型本地化計(jì)算，最后將計(jì)算結(jié)果寫入分布式存儲(chǔ)。

圖1???水環(huán)境模擬集群運(yùn)算模式

2.2 技術(shù)架構(gòu)

綜合現(xiàn)有水環(huán)境模型和大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀，圖2給出了水環(huán)境模擬集群運(yùn)算模式實(shí)現(xiàn)的技術(shù)架構(gòu)。實(shí)現(xiàn)流程為：在“數(shù)據(jù)”層形成“模型/算法”層運(yùn)行所需的基礎(chǔ)配置文件集合；然后文件集合和模型/算法被上傳到“存儲(chǔ)”層，并以Hadoop分布式文件系統(tǒng)（Hadoop distributed file system，HDFS）格式存儲(chǔ)；在“計(jì)算”層中，計(jì)算作業(yè)調(diào)度啟動(dòng)離線批量計(jì)算程序，實(shí)現(xiàn)多個(gè)模型/算法的分布式并發(fā)計(jì)算，計(jì)算結(jié)果解析后被存入HBase數(shù)據(jù)庫，“計(jì)算”層利用Spark分析HBase數(shù)據(jù)庫中存儲(chǔ)的記錄，以支持業(yè)務(wù)應(yīng)用。

水環(huán)境數(shù)值模型模擬計(jì)算是典型的CPU密集型運(yùn)算，具有計(jì)算性能需求高、運(yùn)行時(shí)間長、計(jì)算結(jié)果文件大的特點(diǎn)。針對(duì)此特點(diǎn)，“計(jì)算”層中需要篩選合適的技術(shù)框架，其中MapReduce和Spark均屬于分布式計(jì)算框架，前者處理“本地化”模型輸入文件數(shù)據(jù)，后者處理“本地化”模型輸出的結(jié)果數(shù)據(jù)。MapReduce適合離線式批量計(jì)算，Spark 適合內(nèi)存式迭代計(jì)算，此外還引入了QUARTZ定時(shí)任務(wù)框架，用于周期性執(zhí)行的計(jì)算作業(yè)調(diào)度管理。鑒于數(shù)值模型計(jì)算耗時(shí)的特點(diǎn)，采用MapReduce離線式計(jì)算框架，而對(duì)于計(jì)算結(jié)果的交互式分析，則采用Spark內(nèi)存迭代式計(jì)算框架。

圖2???水環(huán)境模擬集群運(yùn)算模式技術(shù)架構(gòu)

在分布式文件存儲(chǔ)和數(shù)據(jù)庫存儲(chǔ)方面，HDFS和HBase已經(jīng)得到廣泛應(yīng)用。水環(huán)境模型配置和原始模擬結(jié)果通常以文件格式存儲(chǔ)，適合采用HDFS存儲(chǔ)；模擬結(jié)果解析后的結(jié)構(gòu)化數(shù)據(jù)則適合采用HBase數(shù)據(jù)庫進(jìn)行存儲(chǔ)。此外對(duì)于其他常用的數(shù)據(jù)，如模型運(yùn)算相關(guān)基本信息描述、集群軟硬件資源描述等，適合采用常規(guī)關(guān)系型數(shù)據(jù)庫或者其他外部存儲(chǔ)方式。

數(shù)值模型/算法是水環(huán)境模擬的計(jì)算引擎和核心價(jià)值，一般根據(jù)實(shí)際應(yīng)用側(cè)重的功能需求來選擇合適的模型。基于開源、具有商業(yè)應(yīng)用背景和完善的社區(qū)技術(shù)支持等篩選依據(jù)，圖2推薦Delft3D和SELFE 2種水動(dòng)力水質(zhì)模型，此外還包括TELEMAC、EFDC等其他模型。針對(duì)大規(guī)模集群計(jì)算產(chǎn)生的模擬結(jié)果分析，在技術(shù)架構(gòu)的“模型/算法”層集成機(jī)器學(xué)習(xí)算法庫，如Apache Mahout、Spark MLib等。為了支持用戶自定義算法，在“模型/算法”層也提供用戶自定義函數(shù)。鑒于模擬結(jié)果存儲(chǔ)在HBase中，因而推薦采用Spark實(shí)現(xiàn)自定義操作。

“數(shù)據(jù)”層中定義了數(shù)值模型/算法運(yùn)行所需要的一系列基礎(chǔ)配置文件。典型的水環(huán)境模型配置文件包括研究區(qū)網(wǎng)格剖分、地形插值、初始場、邊界條件設(shè)定等。根據(jù)參數(shù)率定、不確定性分析及情景決策的應(yīng)用需要，可形成一系列場景文件集合。

3 應(yīng)用案例

3.1 模式設(shè)計(jì)

以Hadoop MapReduce環(huán)境下Delft3D模型運(yùn)算為例，驗(yàn)證集群運(yùn)算模式的可行性。Delft3D模型由荷蘭WL|Delft Hydraulics公司開發(fā)，用于河流、湖泊、水庫、河口和海岸等自由地表水環(huán)境的水動(dòng)力和水生態(tài)計(jì)算。Delft3D由7個(gè)模塊組成，包括：水動(dòng)力模塊（Delft3DFLOW）、波浪模塊（Delft3D–WAVE）、水質(zhì)模塊（Delft3D-WAQ）、顆粒跟蹤模塊（Delft3D-PART）、生態(tài)模塊（Delft3D–ECO）、泥沙輸移模塊（Delft3D-SED）和動(dòng)力地貌模塊（Delft3D-MOR）。這些模塊功能獨(dú)立且相互聯(lián)系，每一個(gè)模塊都可單獨(dú)執(zhí)行或與一個(gè)或多個(gè)其他模塊組合執(zhí)行，能夠模擬二維和三維水流、波浪、水質(zhì)、生態(tài)、泥沙輸移及床底地貌以及各個(gè)過程之間的相互作用。Delft3D模型是目前國際上先進(jìn)的水動(dòng)力-水質(zhì)模型之一，在國際上應(yīng)用十分廣泛。圖3中水環(huán)境模擬集群運(yùn)算模式設(shè)計(jì)的核心在于將Delft3D模型的每個(gè)參數(shù)集文件通過集群分發(fā)機(jī)制分布到各個(gè)數(shù)據(jù)節(jié)點(diǎn)，集群通過位置感知機(jī)制將計(jì)算程序定位到數(shù)據(jù)節(jié)點(diǎn)，在節(jié)點(diǎn)上通過讀取參數(shù)集文件，重構(gòu)模型配置文件，并完成模型計(jì)算過程。

圖3???水環(huán)境模擬集群MapReduce運(yùn)算核心流程

3.2 集群環(huán)境

Hadoop采用傳統(tǒng)的主/從框架體系，集群搭建中至少采用3臺(tái)服務(wù)器，一臺(tái)服務(wù)器作為集群的主節(jié)點(diǎn)，即各稱節(jié)點(diǎn)（NameNode）。NameNode的失敗會(huì)導(dǎo)致集群失敗。為了保障NameNode故障時(shí)恢復(fù)集群運(yùn)轉(zhuǎn)，選擇另外一臺(tái)服務(wù)器作為NameNode的備份節(jié)點(diǎn)，即第二名稱節(jié)點(diǎn)（secondary NameNode）。NameNode負(fù)責(zé)管理整個(gè)文件系統(tǒng)，維護(hù)和更新文件的分塊、存儲(chǔ)信息，監(jiān)視文件系統(tǒng)的健康狀態(tài)。為了維護(hù)整個(gè)文件系統(tǒng)，NameNode需要在內(nèi)存磁盤中進(jìn)行大量的讀寫操作，這些操作會(huì)搶占計(jì)算資源，因此，通常托管NameNode的機(jī)器不再承擔(dān)數(shù)據(jù)節(jié)點(diǎn)（DataNode）和任務(wù)追蹤器（TaskTracker）任務(wù)。剩余集群同時(shí)作為TaskTracker和DataNode。

表1中采用7臺(tái)機(jī)器搭建Hadoop集群，其中“Master”在集群中承擔(dān)NameNode和作業(yè)追蹤器（JobTracker）的角色，“Master2”承擔(dān)secondary NameNode的角色，“s200～s204”承擔(dān)DataNode和TaskTracker的角色。7臺(tái)機(jī)器通過千兆交換機(jī)進(jìn)行網(wǎng)絡(luò)連接，網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4???Hadoop集群網(wǎng)絡(luò)結(jié)構(gòu)

3.3 實(shí)現(xiàn)流程

圖5按照“情景定義-集群計(jì)算”2層結(jié)構(gòu)描述了實(shí)現(xiàn)流程。“情景定義”負(fù)責(zé)為模型運(yùn)行提供一系列不同的場景文件，它包括模型定義、參數(shù)提取和參數(shù)集定義3個(gè)部分。圖6中，模型定義過程提供了水環(huán)境數(shù)值模型運(yùn)行的一系列基礎(chǔ)配置文件，包括研究區(qū)網(wǎng)格剖分、地形插值、邊界條件設(shè)定、初始化狀態(tài)設(shè)定等過程對(duì)應(yīng)的參數(shù)設(shè)置文件，這些文件由一個(gè)項(xiàng)目工程統(tǒng)一進(jìn)行管理；參數(shù)提取過程根據(jù)參數(shù)率定、不確定性分析及情景決策的需要，從模型定義文件中選取相應(yīng)的參數(shù)，如河床底部糙率、紊動(dòng)粘滯系數(shù)、污染物降解系數(shù)等；參數(shù)集定義過程將上述參數(shù)采用拉丁超立方抽樣，生成一系列參數(shù)集文件，該文件與基礎(chǔ)配置文件壓縮后存入HDFS，副本數(shù)默認(rèn)取3；計(jì)算任務(wù)分發(fā)過程中，“集群運(yùn)算”負(fù)責(zé)搭建集群運(yùn)算環(huán)境，并將參數(shù)集定義過程中的參數(shù)集文件分發(fā)到集群的計(jì)算節(jié)點(diǎn)（task slot）；計(jì)算任務(wù)執(zhí)行過程在每個(gè)計(jì)算節(jié)點(diǎn)上讀取參數(shù)集文件，重構(gòu)模型配置文件，執(zhí)行模型計(jì)算，并將模型計(jì)算結(jié)果存儲(chǔ)到集群。

圖5???水環(huán)境模擬集群運(yùn)算模式實(shí)現(xiàn)流程

圖6???運(yùn)行時(shí)間/計(jì)算節(jié)點(diǎn)個(gè)數(shù)對(duì)比

3.4 實(shí)驗(yàn)設(shè)計(jì)

為了測試集群的可用性，同時(shí)也為了確保測試過程的可復(fù)制性，模型文件采用官方弗里斯蘭潮汐口（Frisian tidal inlet）案例；為了測試不同模型大小對(duì)集群運(yùn)算過程的影響，案例的模擬時(shí)間分別設(shè)計(jì)為1年、半年和1個(gè)月；為了測試集群的可靠性和可擴(kuò)展性，設(shè)計(jì)了動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試實(shí)驗(yàn)。集群計(jì)算性能評(píng)價(jià)采用加速比指標(biāo)，加速比是同一個(gè)計(jì)算任務(wù)在單處理器系統(tǒng)和并行處理器系統(tǒng)中運(yùn)行消耗的時(shí)間比率，用來衡量并行系統(tǒng)或程序并行化的性能和效果。加速比計(jì)算式為SN=T1/TN，其中N指計(jì)算節(jié)點(diǎn)的數(shù)量，T1指單計(jì)算節(jié)點(diǎn)完成計(jì)算的用時(shí)，TN指N個(gè)計(jì)算節(jié)點(diǎn)完成計(jì)算的用時(shí)。

3.5 測試結(jié)果

圖6表明，不論是常規(guī)的單作業(yè)多任務(wù)模式（集群只有唯一一個(gè)job，內(nèi)含多個(gè)task算例），還是多作業(yè)單任務(wù)模式（集群擁有多個(gè)job，每個(gè)job只含有唯一的task算例），集群成功地實(shí)現(xiàn)了所有計(jì)算任務(wù)，證明Hadoop MapReduce環(huán)境下Delft3D模型集群運(yùn)算模式的可行性。此外，上述2種作業(yè)模式隨著計(jì)算節(jié)點(diǎn)的增加呈現(xiàn)出以下規(guī)律。

首先，隨著計(jì)算節(jié)點(diǎn)的增加，集群的運(yùn)行時(shí)間顯著降低。起初，圖6（a）的總運(yùn)行時(shí)間略高于圖6（b）的總運(yùn)行時(shí)間，隨著計(jì)算節(jié)點(diǎn)的增加，運(yùn)行時(shí)間的降幅明顯高于后者。而且，隨著計(jì)算節(jié)點(diǎn)的增加，模型復(fù)雜度和運(yùn)行時(shí)間也呈現(xiàn)出規(guī)律：低復(fù)雜度模型（模型3）的運(yùn)行時(shí)間降幅明顯高于中復(fù)雜度模型（模型2），中復(fù)雜度模型的運(yùn)行時(shí)間降幅明顯高于高復(fù)雜度模型（模型1）。總體上，圖6（a）中模型的運(yùn)行時(shí)間降幅分別高于圖6（b）中相應(yīng)模型的運(yùn)行時(shí)間降幅。

其次，圖7中集群的加速比與計(jì)算節(jié)點(diǎn)呈現(xiàn)近似線性關(guān)系：隨著節(jié)點(diǎn)個(gè)數(shù)的增加，集群加速比有明顯的偏離趨勢。相對(duì)于圖7（b），圖7（a）的加速比更接近理想值。除了計(jì)算節(jié)點(diǎn)為1時(shí)兩者加速比均接近理想值1之外，圖7（a）明顯優(yōu)于圖7（b）。當(dāng)計(jì)算節(jié)點(diǎn)為5時(shí)，圖7（a）3種模型（模型3、模型2、模型1）的加速比分別為4.08、4.22和4.25，圖7（b）中的加速比分別為3.89、4.22和3.89。圖7（a）稍優(yōu)于圖7（b），主要?dú)w結(jié)于前者具有更合理的集群設(shè)置。圖7（a）中總?cè)蝿?wù)數(shù)等于總模擬數(shù)，因此作業(yè)被分為多個(gè)任務(wù)，這有利于任務(wù)負(fù)載均衡和充分利用計(jì)算資源。

圖7???加速比/計(jì)算節(jié)點(diǎn)個(gè)數(shù)對(duì)比

而且，模型的大小與加速比在總體上呈現(xiàn)相關(guān)關(guān)系，集群中低復(fù)雜度模型（模型1）獲得的加速比明顯高于中復(fù)雜度模型（模型2），中復(fù)雜度模型獲得的加速比明顯高于高復(fù)雜度模型（模型3）。不考慮模型復(fù)雜度，除了當(dāng)計(jì)算節(jié)點(diǎn)為1時(shí)，2種模式加速比類似接近理想值1之外，隨著計(jì)算節(jié)點(diǎn)增加，3種不同復(fù)雜度模型的加速比均與計(jì)算節(jié)點(diǎn)呈現(xiàn)近似線性關(guān)系，且圖7（a）中不同復(fù)雜度模型獲得的加速比均明顯高于圖7（b）中對(duì)應(yīng)模型獲得的加速比。復(fù)雜度越高的模型會(huì)損失越多的加速比，其主要原因在于模型計(jì)算越復(fù)雜，對(duì)磁盤I/O需求越大，模擬結(jié)果寫入磁盤耗時(shí)越長。

最后，集群中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試（圖8）結(jié)果顯示，在作業(yè)1～作業(yè)19的運(yùn)行過程中，每個(gè)作業(yè)運(yùn)行時(shí)間維持在600 s；當(dāng)?shù)?0個(gè)作業(yè)運(yùn)行時(shí)，關(guān)閉2個(gè)計(jì)算節(jié)點(diǎn)，運(yùn)行時(shí)間迅速升至1 300 s左右，然后平緩降低至900 s左右（位于作業(yè)39處）；當(dāng)在作業(yè)40處增加一個(gè)計(jì)算節(jié)點(diǎn)時(shí)，作業(yè)運(yùn)行時(shí)間緩慢降至740 s左右（位于作業(yè)59處）；當(dāng)在作業(yè)60處再增加一個(gè)計(jì)算節(jié)點(diǎn)時(shí)，集群恢復(fù)起始狀態(tài)，作業(yè)運(yùn)行狀況和作業(yè)1～作業(yè)19類似；當(dāng)在作業(yè)79處關(guān)閉3個(gè)計(jì)算節(jié)點(diǎn)時(shí)，作業(yè)80的運(yùn)行時(shí)間迅速升至1 500 s左右，然后緩慢降到1 200 s左右，直至剩余作業(yè)計(jì)算完成。研究結(jié)果表明，集群運(yùn)行過程中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)會(huì)影響計(jì)算作業(yè)的執(zhí)行過程，但是不會(huì)造成計(jì)算任務(wù)的失敗和集群環(huán)境崩潰，證明集群模式具有優(yōu)秀的容錯(cuò)性、可擴(kuò)展性和可靠性。

圖8???集群中動(dòng)態(tài)增刪計(jì)算節(jié)點(diǎn)測試

4 結(jié)束語

水環(huán)境模型結(jié)構(gòu)的日益復(fù)雜和應(yīng)用的不斷深入，對(duì)高性能計(jì)算和海量數(shù)據(jù)處理提出了新挑戰(zhàn)。積極探索利用大數(shù)據(jù)技術(shù)將各種計(jì)算資源聚合，實(shí)現(xiàn)協(xié)同計(jì)算，是現(xiàn)代水環(huán)境模擬面臨的一個(gè)迫切需求。本文基于大數(shù)據(jù)分布式計(jì)算框架，建立了一種適用于水環(huán)境模型批量模擬計(jì)算的運(yùn)算模式。實(shí)例驗(yàn)證了Hadoop MapReduce環(huán)境下Delft3D模型集群運(yùn)算模式的可行性，結(jié)果表明集群運(yùn)算模式可顯著加快運(yùn)算過程，可提供良好的橫向擴(kuò)展和容錯(cuò)的模型運(yùn)行環(huán)境，是解決水環(huán)境模擬大規(guī)模批量計(jì)算需求的一種理想方法。集群運(yùn)算模式的軟件體系基于開源技術(shù)架構(gòu)，硬件體系基于商業(yè)PC或者服務(wù)器，因此，集群構(gòu)建具有過程靈活、節(jié)約成本的特點(diǎn)，適用于參數(shù)率定、不確定性分析以及情景決策等批量計(jì)算應(yīng)用場景。同時(shí)該模式也適用于其他環(huán)境建模，具有較強(qiáng)的通用性。

作者簡介

馬金鋒（1978-），男，中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室（中國科學(xué)院生態(tài)環(huán)境研究中心）助理研究員，主要研究方向?yàn)樗h(huán)境數(shù)值模擬。

唐力（1967-），男，深圳市環(huán)境監(jiān)測中心站高級(jí)工程師，主要研究方向?yàn)榄h(huán)境監(jiān)測。

饒凱鋒（1976-），男，中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室（中國科學(xué)院生態(tài)環(huán)境研究中心）助理研究員，主要研究方向?yàn)樗鷳B(tài)毒理學(xué)、環(huán)境預(yù)警監(jiān)測與物聯(lián)網(wǎng) 。

洪綱（1974-），男，石家莊市環(huán)境信息中心高級(jí)工程師，主要研究方向?yàn)榄h(huán)境大數(shù)據(jù)、環(huán)境監(jiān)測與管理。

馬梅（1967-），女，中國科學(xué)院飲用水科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室（中國科學(xué)院生態(tài)環(huán)境研究中心）研究員，主要研究方向?yàn)樗鷳B(tài)毒理學(xué) 。

《大數(shù)據(jù)》期刊

《大數(shù)據(jù)（Big Data Research，BDR）》雙月刊是由中華人民共和國工業(yè)和信息化部主管，人民郵電出版社主辦，中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo)，北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。

關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào)，獲取更多內(nèi)容

往期文章回顧

人在回路的數(shù)據(jù)準(zhǔn)備技術(shù)研究進(jìn)展

工業(yè)時(shí)序大數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)管護(hù)技術(shù)及應(yīng)用

基于數(shù)據(jù)空間的電子病歷數(shù)據(jù)融合與應(yīng)用平臺(tái)

基于APMSSGA-LSTM的容器云資源預(yù)測

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的Hadoop下水环境模拟集群运算模式的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。