南开大学计算机机房,南京大学高性能计算中心揭秘(多图)
2009年國內高性能計算排行榜Top100上,來自南京大學的高性能計算系統(tǒng)以34萬億次的Linpack成績排名第七(國際Top500排名203)。中秋節(jié)前夕,記者來到南京大學高性能計算中心采訪了負責此項目的周慶林老師,并參觀了該高性能計算中心機房。
據了解,這套HPC系統(tǒng)采用基于至強5500的IBM HS22刀片服務器打造,于去年第二季度開始建設,今年7月份完成全部調試工作正式投入對南京大學各科學院系的高性能計算服務。
建設背景
據周慶林老師介紹,南京大學從事高性能計算方面的建設始于1980年天文系的應用需求。隨著科學技術以及教育需求的提升,各個院系也相繼開始購買服務器解決自己的計算需求。但是各個院系由于成本、人力等原因自己建設科研教學用高性能計算節(jié)點過于浪費,且不符合資源利用***化的需求。因此,在985工程二期的項目中,南京大學撥出了專門款項購置和更新全校所需的共享大型計算設備,力求為全校理科院系提供更強大的計算能力。
南京大學高性能計算中心也因此孕育而生。在論證中南京大學的專家組一致認為,作為一個高性能計算中心,需要為科研計算提供兩類設備:一類為共享內存型SMP或CCNUMA架構小型機;另一類為x86架構機架或刀片服務器,提供通用計算。
但是到了2005年左右,x86架構高性能計算集群開始升溫,大大動搖了傳統(tǒng)共享內存模式的小型機地位。因此,南京大學打算做小規(guī)模的小型機,另一部分做x86集群——但是有兩個問題:***是機房選址問題,第二是到底選擇什么樣的x86服務器。
周慶林老師表示,當時再機房選址時主要考慮了兩個方面的問題:1、機房的承重問題,由于每個機架塞滿服務器之后有數噸重,建設在高樓層需要對樓層進行加固,因此最終選擇了建設在一樓。2、機房的制冷和走線問題,南京大學當時選擇了物理系1層做數據中心機房,但是問題在于電力配給不夠,考慮到增容需要對樓宇進行改造,因此***選擇在天文系的樓宇建設機房。
機房選址的問題解決之后,究竟選擇機架服務器還是刀片服務器做高性能計算中心的計算節(jié)點呢?周慶林老師表示,當時專家組也經過了一些討論,并結合學校有些院系的使用經驗,最終選擇了刀片服務器。據周老師介紹,刀片服務器至今已經經過了幾代的發(fā)展,日趨成熟。而機架服務器相對來說存在布線、管理較復雜的問題。
南京大學高性能計算中心從選用基于至強平臺的刀片服務器至今,沒有出現過任何計算節(jié)點的問題,穩(wěn)定性方面不弱于原來的小型機機架(甚至更好)。散熱方面,目前高端刀片機箱由于計算密度高,計算資源集中,因此只要做好冷熱通道就能很好的解決散熱效率,滿足系統(tǒng)需求(第三節(jié)有機房的具體介紹,會著重介紹散熱)。
中心架構揭秘
確定了選擇刀片服務器之后,通過招標南京大學選擇了IBM BladeCenter HS22刀片服務器作為高性能計算系統(tǒng)的計算節(jié)點。整個系統(tǒng)由10個登陸節(jié)點,4個管理節(jié)點,54TB高速并行存儲、128TB SAN架構存儲以及4x Infiniband全線速網絡、千兆作業(yè)調度管理網絡等構成。
▲南京大學高性能計算中心系統(tǒng)架構圖
據周老師介紹,全套系統(tǒng)由402片HS22刀片服務器構成,每節(jié)點12GB內存,2顆英特爾至強5500系列處理器(主頻2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片服務器用作登陸節(jié)點,每節(jié)點24GB內存,4Gb光纖卡,20Gb Infiniband以及千兆網卡。另有30臺刀片機箱與上述計算節(jié)點配套,擁有16口Infiniband交換模塊、六口千兆交換機和兩個百兆管理網口。
網絡交換方面,周老師介紹說他們采用了兩臺288口20Gb 4x Infiniband交換機(當時還沒有成熟的40Gb Infiniband交換設別),組成全線速無阻塞并行計算網絡。此外還有四臺4口萬兆上行48口BNT的交換機用作作業(yè)調度和管理。
對于刀片服務器的散熱和供電是重中之重,南大高性能計算中心采用了4臺90千瓦制冷量的艾默生Libert Pex機房精密空調,120千瓦UPS擁有96節(jié)湯式100AH電池,可在斷電的情況下維持數據中心1小時時間,足夠工作負載暫停和系統(tǒng)正常關閉。此外,南京大學高性能中心還配備了三個配電柜,提供500KVA機房電力增容,一套七氟丙烷氣體消防滅火系統(tǒng)為機房提供消防保障。
之所以選擇至強平臺的考慮有三點:1、至強5500通過QPI快速互聯通道、內存控制器集成等技術在高性能計算中已經具有強大的性能優(yōu)勢;2、從性價比和高性能計算的整合率來看,至強5500擁有更好的性能,更低的功耗;3、南京大學高性能計算中心計劃將至強5500平滑升級遷移到至強5600處理器,平臺不變僅刷新bois就可以將系統(tǒng)性能提升約50%。
圖解南京大學高性能計算中心
▲走進高性能計算中心的機房,首先可以看到外側監(jiān)控人員的坐席
▲通過監(jiān)控軟件,外面的管理員可以輕松的了解目前設備的工作情況,包括溫度、供電、機房視頻監(jiān)控等
▲周慶林老師向我們展示了管理平臺的功能之一:每天向手機發(fā)短信匯報目前機房的狀況,一旦遇到問題也會立刻發(fā)短信通知到指定的手機。
▲機房內是擺放整齊的機柜,可以看到上面用玻璃從機柜正中封死了機房后部和前部,這樣做的好處是隔絕了冷熱通道——空調的冷風從下面(架高60cm\)送到前部,被機柜風扇吸入排出到后面直接送給空調。封死之后冷熱通道徹底隔絕,大大提升了散熱效率。
內部刀片服務器圖解
▲打開機架,可以看到IBM HS22刀片服務器,這個機柜比較特殊,可以看到上面的那個刀片機箱只插了10個刀片——這既是我們前文提到的管理登陸節(jié)點,而下面和旁邊的其他刀片則插滿了14個計算刀片
▲IBM x3650服務器用作并行存儲,為實時計算的數據調用提供了一個緩沖(前端是刀片,后端是SAN)
▲IBM DS3000 SAN負責后端存儲
▲兩臺288口20Gb 4x Infiniband交換機
▲如此多的Infiniband連接線,碼放的非常整齊
▲機房的消防設施
▲七氟丙烷滅火系統(tǒng)的儲氣罐——有毒,可窒息
▲96組UPS電池柜一角
【編輯推薦】
【責任編輯:景琦 TEL:(010)68476606】
總結
以上是生活随笔為你收集整理的南开大学计算机机房,南京大学高性能计算中心揭秘(多图)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机硬盘位显示none,开机找不到硬盘
- 下一篇: 计算机辅助药物合成投什么期刊,中国药物化