HPC高性能计算知识: HPDA新兴技术分析(附下载)
高性能數(shù)據(jù)分析(HPDA)是一個新興技術(shù),也是HPC的一個主要細(xì)分市場,在該領(lǐng)域目前活躍的主要玩家集中在云服務(wù)、大數(shù)據(jù)、存儲、服務(wù)器和網(wǎng)絡(luò)領(lǐng)域(像IBM、Fujistu、SGI、甲骨文、惠普企業(yè)、谷歌等)。
根據(jù)WGR報告顯示,推動HPDA市場增長主要動力來自HPC數(shù)據(jù)密集型應(yīng)用。在不久的將來,數(shù)據(jù)密集型業(yè)務(wù)的加速除了應(yīng)用于傳統(tǒng)的HPC模擬和空間算法外,還將用于電子商務(wù)、金融和經(jīng)濟領(lǐng)域。
目前,主要從技術(shù)和市場應(yīng)用2個緯度對HPDA進(jìn)行分類。
按技術(shù)細(xì)分市場主要分為Graph Analytics、Streaming Analytics、Compute Intensive Analytics和Novel Architectures等。
按市場應(yīng)用細(xì)分為Financial Services、Manufacture、Scientific、Energy、Healthcare和Telecommunication等。
根據(jù)IDC預(yù)測,HPDA帶動服務(wù)器收入的強勁增長(13.3%復(fù)合年增長率),從2012年的7.438億美元增加到2017年的14億美元。HPDA存儲收入將在今后一年達(dá)到8億美元。然而,HPDA存儲增長的技術(shù)挑戰(zhàn)是數(shù)據(jù)移動和管理。那么,今天以富士通的HPDA解決方案為主線,詳細(xì)分析下HPDA參考架構(gòu)和技術(shù)方案。
本文對大數(shù)據(jù)分析和HPC兩種技術(shù)融合所帶來的好處、具體應(yīng)用場景和性能基準(zhǔn)進(jìn)行了深入的分析,其中包括HPC/HPDA概念、所涉及的組件,并解釋了通用的解決方案體系結(jié)構(gòu),充分體現(xiàn)了高性能數(shù)據(jù)分析的經(jīng)濟價值。
同時,闡述一種成本效益參考模型,使企業(yè)能夠利用和利用現(xiàn)有的HPC基礎(chǔ)設(shè)施有效地運行HPDA工作負(fù)載。
高性能數(shù)據(jù)分析(HPDA)的出現(xiàn)
隨著數(shù)據(jù)爆炸式增長,企業(yè)內(nèi)服務(wù)器和存儲線性擴變得越來越困難。根據(jù)Hyperion預(yù)測,到2025年,全球數(shù)據(jù)空間將增長到163ZB,這是2011年HPC產(chǎn)生數(shù)據(jù)16.1ZB的10倍。
數(shù)據(jù)對計算能力的要求包括三個階段(數(shù)據(jù)捕獲和過濾、分析、結(jié)果可視化展示),為了釋放大數(shù)據(jù)的全部潛力,數(shù)據(jù)規(guī)模必須將其與大計算(Big Compute)或HPC配配,讓更多的行業(yè)可以從大數(shù)據(jù)和HPC的結(jié)合中受益。
任何工作負(fù)載需要加速計算和數(shù)據(jù)密集型工作負(fù)載時,都可以使用HPDA體系結(jié)構(gòu)提高生產(chǎn)率,目前來看,HPDA幫助它們在競爭中保持領(lǐng)先的主要行業(yè)有:
1)電子商務(wù)和商業(yè)
2)天氣和氣候建模
3)傳統(tǒng)HPC環(huán)境(科學(xué)建模、教育研究環(huán)節(jié))
高性能數(shù)據(jù)分析工作負(fù)載
? ? ? 根據(jù)檢索的速度、數(shù)據(jù)流、數(shù)據(jù)集、信息輸入和輸出類型,高性能分析有著不同的類型的工作負(fù)載。這些因素的結(jié)合決定了獲得最佳分析結(jié)果所需的工作量和分析過程。
在數(shù)據(jù)密集和計算密集型應(yīng)用中,工作負(fù)載是大規(guī)模、并行的,同時也高度依賴網(wǎng)絡(luò)和存儲。來不同設(shè)備的結(jié)構(gòu)化和非結(jié)構(gòu)化分析數(shù)據(jù)使得數(shù)據(jù)采集和過濾更加復(fù)雜,這些數(shù)據(jù)來源包括物聯(lián)網(wǎng)設(shè)備、傳感器等。
高性能數(shù)據(jù)分析的流程
在Hadoop等大數(shù)據(jù)應(yīng)用上使用HPC資源創(chuàng)建了高性能的數(shù)據(jù)分析配置。在一個標(biāo)準(zhǔn)的大數(shù)據(jù)應(yīng)用工作流中,需要對數(shù)據(jù)進(jìn)行收集和分析以獲得近實時的洞察。分析等處理信息所需的時間取決于收集數(shù)據(jù)的速率和處理的復(fù)雜性。類似地,在標(biāo)準(zhǔn)的HPC工作流中,數(shù)據(jù)的收集和合并,也需要基于復(fù)雜的數(shù)值模型通過并行處理以獲得所需的輸出。
當(dāng)HPC和大數(shù)據(jù)技術(shù)合并時,HPDA平臺將具有HPC資源在大數(shù)據(jù)應(yīng)用程序上運行復(fù)雜工作負(fù)載、處理和存儲大數(shù)據(jù)集的能力,整個處理流程如下圖所示:
何時實現(xiàn)HPDA體系結(jié)構(gòu)
當(dāng)談到市面上可用的數(shù)據(jù)分析解決方案時,Hadoop和Spark已經(jīng)成為這些解決方案的代名詞。下面,我們將試圖解釋什么時候可以繼續(xù)使用標(biāo)準(zhǔn)的數(shù)據(jù)分析解決方案,什么時候需要使用HPDA體系結(jié)構(gòu)或解決方案。
如前所述,大數(shù)據(jù)分析Hadoop平臺是一個基于Java的開源編程框架,它是Apache軟件基金會發(fā)起的一個項目。它支持在分布式計算環(huán)境中處理和存儲大規(guī)模數(shù)據(jù)集。
Hadoop還利用了Map Reduce框架(由谷歌開發(fā)),該框架提供調(diào)度、分發(fā)和并行服務(wù)。Map Reduce框架從Hadoop分布式文件系統(tǒng)(HDFS)獲取輸入數(shù)據(jù)。然而與HPC并行文件系統(tǒng)(如Fujitsu Software FEFS)、其他并行文件系統(tǒng)或GPFS或FEFS相比,HDFS的速度要慢得多。相比HDFS,這些HPC文件系統(tǒng)更有效地支持小文件的隨機讀取。HDFS適用于大型數(shù)據(jù)集。
另一個解決方案是Spark,它是Apache項目的第二代大數(shù)據(jù)處理架構(gòu),是一個在分布式計算集群(如Hadoop)上執(zhí)行通用數(shù)據(jù)分析的框架。它為Map Reduce數(shù)據(jù)處理提供內(nèi)存計算能力,因此是一個性能更高的解決方案。但是,對于要求事實、高速分析的數(shù)據(jù)集和工作負(fù)載來說,該解決方案會占用大量內(nèi)存資源。
即使在消息傳遞接口(MPI)中重寫Hadoop的通信機制、在Hadoop中支持Lustre、或者在Hadoop中實現(xiàn)InfiniBand通信層,都不能獲得預(yù)期的高性能計算效果。因此,結(jié)合高性能計算硬件、軟件資源和Hadoop或Spark,將大數(shù)據(jù)應(yīng)用程序帶到高性能計算配置中,才能提供高性能、敏捷和可伸縮的解決方案。在這兩個領(lǐng)域結(jié)合方面,高性能數(shù)據(jù)分析最有可能解決這些工作負(fù)載所需的計算速度和數(shù)據(jù)規(guī)模。
富士通在為Hadoop解決方案提供數(shù)據(jù)分析解決方案方面有著豐富的經(jīng)驗。因此,我們認(rèn)識到Hadoop在提供成本有效的數(shù)據(jù)分析解決方案方面的價值。然而,本文關(guān)注的是具有現(xiàn)有HPC基礎(chǔ)設(shè)施的用戶,展示了他們?nèi)绾卫迷摶A(chǔ)設(shè)施構(gòu)建可伸縮的、敏捷的、高性能的HPDA環(huán)境。
HPDA參考模型
HPDA參考模型結(jié)合大數(shù)據(jù)和數(shù)據(jù)分析技術(shù),體現(xiàn)了HPC基礎(chǔ)設(shè)施的智能集成和性能優(yōu)勢。如果客戶數(shù)據(jù)中心已經(jīng)運行HPC基礎(chǔ)設(shè)施或Fujitsu的集成系統(tǒng)Primeflex,則可以在現(xiàn)有基礎(chǔ)設(shè)施資源的基礎(chǔ)上構(gòu)建HPDA參考模型,并根據(jù)需求進(jìn)行擴展。
或者,也可以從零開始構(gòu)建、部署HPDA基礎(chǔ)設(shè)施Primeflex。在這兩種解決方案部署中,傳統(tǒng)的HPC集群都增加了大數(shù)據(jù)和數(shù)據(jù)分析處理所需的Hadoop工具,使傳統(tǒng)的HPC工作負(fù)載能夠與HPDA共存。此外,HPC并行文件系統(tǒng)配置了HDFS連接器,使得HPDA應(yīng)用程序和HPC應(yīng)用程序同時無縫地訪問數(shù)據(jù)。
Fujitsu的這種方法可以構(gòu)建敏捷的HPDA系統(tǒng),結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理都是在HPDA體系結(jié)構(gòu)中完成處理。有效地結(jié)合了HPC和數(shù)據(jù)分析工作負(fù)載,從而優(yōu)化降低客戶投入成本。
計算節(jié)點是一組靈活的HPC集群節(jié)點,其上運行復(fù)雜和簡單的計算任務(wù)。Fujitsu PrimeRay RX2530 1U雙處理器服務(wù)器是一種最優(yōu)的計算服務(wù)器,它具有很大的靈活性和擴展性,它可以擴展以滿足最苛刻的內(nèi)存需求。
SSD用于計算節(jié)點上的本地存儲,推薦的SSD大小與內(nèi)存比為3:1?;贐eeGFS的單個并行文件系統(tǒng)配置了HDFS連接器功能,為HPC和HPDA工作負(fù)載提供盡可能好的性能。
基于InfiniBand/Omni-Path的HPC架構(gòu)的高速互連用于確保節(jié)點間通信最大化,對需要持久化存儲的數(shù)據(jù)移動達(dá)到了最高的吞吐量。
HPDA通用系統(tǒng)架構(gòu)
一個共享的HPC和HPDA結(jié)合環(huán)境,HPDA組件的主要屬性是將頭節(jié)點上的作業(yè)提交與批處理系統(tǒng)集成,使HPDA用戶能夠直接向HPC基礎(chǔ)設(shè)施提交工作。本地PFS被配置為HDFS兼容文件系統(tǒng),為HPDA進(jìn)程提供高速數(shù)據(jù)訪問能力。永久存儲層還使用PFS構(gòu)建,以便HPC和HPDA作業(yè)都能夠保存長期數(shù)據(jù)。
下面給出了基于中到超大數(shù)據(jù)大小的推薦配置。這些系統(tǒng)配置可以作為參考指導(dǎo),以最低價格和最高性能實現(xiàn)最優(yōu)配置。
Fujistu HPDA參考模型的優(yōu)勢只要體現(xiàn)在以下幾個方面:
其中最重要的優(yōu)勢是該HPDA解決方案是在現(xiàn)有HPC平臺上進(jìn)行部署。
通過相同的集群管理工具(SLURM)運行密集型計算和大數(shù)據(jù)數(shù)據(jù)分析業(yè)務(wù)。
提供高性能HPC平臺加速Hadoop,通過高速互連和并行文件系統(tǒng)帶來前所未有的性能提升效率。
為了證明這個解決方案的性能優(yōu)勢,Fujistu在相同的硬件上運行標(biāo)準(zhǔn)的TeraSort基準(zhǔn)測試,測試涵蓋標(biāo)準(zhǔn)的Spark、HDFS環(huán)境到BeeGFS。測試遵循該HPDA參考模型的指導(dǎo)原則。驗證使用接連到Slurm批處理的數(shù)據(jù)分析調(diào)度連接器來管理數(shù)據(jù)分析過程,比如管理HPC應(yīng)用程序、帶有HDFS連接器的BeeGFS,BeeGFS是負(fù)責(zé)數(shù)據(jù)存儲組件,用來取代了HDFS。
?
TeraSort基準(zhǔn)的是盡可能快地對大量數(shù)據(jù)進(jìn)行分類,該測試基準(zhǔn)可以全面測試存儲、HDFS和MapReduce層的綜合能力。然而測試表明,Fujistu的HPDA參考架構(gòu)比標(biāo)準(zhǔn)HDFS配置展現(xiàn)出更好的吞吐量,并極大地減少數(shù)據(jù)生成和分析時間。
?
這個基準(zhǔn)測試運行在Fujistu的Primeflex硬件平臺上,該平臺由8個計算節(jié)點組成,每計算節(jié)點包括雙路Broadwell處理器和128GB主存。使用的存儲設(shè)備是標(biāo)準(zhǔn)的400GB Intel SSD,采用8節(jié)點服務(wù)器構(gòu)建并行文件系統(tǒng)作為數(shù)據(jù)存儲。
結(jié)論和總結(jié)
簡單地說,針對這些復(fù)雜的、時效性高的大數(shù)據(jù)工作負(fù)載,很多傳統(tǒng)HPC并行文件系統(tǒng)廠商都提供了HDFD、HDF5等大數(shù)據(jù)支持選項,Fujistu的HPDA參考架構(gòu)也是采用類似方案,該方案對現(xiàn)網(wǎng)影響小且投入成本低,是眼下應(yīng)對HPDA不錯的選擇。
該HPDA參考模型利用現(xiàn)有的HPC基礎(chǔ)設(shè)施和資源,在不破壞原有工作負(fù)載的情況下,運行Hadoop或啟動大數(shù)據(jù)應(yīng)用程序以獲得這兩個方面的最佳效果。
很多政府、商業(yè)組織和研究公司認(rèn)為通過使用HPC資源進(jìn)行數(shù)據(jù)分析,每年可以節(jié)省數(shù)百萬美元。Fujistu認(rèn)為其HPC的集成系統(tǒng)Primeflex提供了一個理想的可伸縮解決方案,可以將HPC和數(shù)據(jù)分析工作負(fù)載結(jié)合到一個HPC基礎(chǔ)設(shè)施上。
關(guān)注公眾號,并在公眾號后臺用鍵盤回復(fù)“HPDA”關(guān)鍵字,下載Fujistu HPDA參考架構(gòu)技術(shù)白皮書。
關(guān)于高性能計算技術(shù),前期詳細(xì)總結(jié)分享過<高性能計算(HPC)技術(shù)、方案和行業(yè)全面解析>電子書,請點擊原文鏈接查閱詳情。
溫馨提示:
請搜索“ICT_Architect”或“掃一掃”二維碼關(guān)注公眾號,點擊原文鏈接獲閱讀原文了解更多。
求知若渴,?虛心若愚
總結(jié)
以上是生活随笔為你收集整理的HPC高性能计算知识: HPDA新兴技术分析(附下载)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CSS常用五类选择器,经典好文
- 下一篇: 3D游戏编程与设计-游戏分类与热点探索