云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位
Descartes Labs 打造了世界上速度最快的 TOP500 超級(jí)計(jì)算機(jī)之一,這也是這份榜單上第一個(gè)在虛擬化公共云資源上運(yùn)行的系統(tǒng)。
Descartes Labs 的 Linpack Benchmark 得分為 1.926 petaflops,使用 AWS 上公開(kāi)可用的云資源
早在 1998 年,Mike Warren 及其在洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的同事們組裝了第一個(gè)躋身世界上速度最快的超級(jí)計(jì)算機(jī) TOP500 榜單的 Linux 集群,一年后他第二次摘得高性能計(jì)算領(lǐng)域的最高獎(jiǎng)戈登·貝爾(Gordon Bell)獎(jiǎng)。
如今,21 年后他領(lǐng)導(dǎo) Descartes Labs 的技術(shù)團(tuán)隊(duì),完成了另一個(gè)開(kāi)創(chuàng)先河的壯舉:使用公共云中的虛擬化資源,創(chuàng)下了新的性能基準(zhǔn)記錄,獲得的運(yùn)算速度(petaflops)比 2010 年世界上最快的計(jì)算機(jī)更勝一籌。
Mike 在 1998 年使用 Linux 稱得上是個(gè)另類,因?yàn)榘駟紊狭硗?499 臺(tái)超級(jí)計(jì)算機(jī)每一臺(tái)使用五花八門的專有操作系統(tǒng)。他早已厭倦了在 IBM、Sun 和五六種版本的 UNIX 之間移植代碼,因此 Linux 提供的硬件和軟件分離這個(gè)優(yōu)點(diǎn)得到了積極的支持。
除了可擴(kuò)展性、互操作性和全球社區(qū)等其他優(yōu)點(diǎn)外,Linux 還讓 Mike 及 HPC 的其他創(chuàng)新者得以通過(guò)將商用 PC 組裝成各自的定制超級(jí)計(jì)算機(jī),改變游戲規(guī)則。
Mike Warren 在 1998 年展示了第一臺(tái)躋身 TOP500 榜單的 Linux 超級(jí)計(jì)算機(jī)
今天,曾經(jīng)的孤例現(xiàn)在成了事實(shí)上的標(biāo)準(zhǔn),因?yàn)?TOP500 超級(jí)計(jì)算機(jī)榜單上的每一臺(tái)都運(yùn)行 Linux。采用 Linux 操作系統(tǒng)表明簡(jiǎn)化 HPC 應(yīng)用軟件的設(shè)計(jì)和部署方面迎來(lái)了巨大飛躍。過(guò)去,相關(guān)人員會(huì)購(gòu)買一個(gè)特殊的 IBM 或 Cray 系統(tǒng),然后很容易購(gòu)買郵購(gòu)的 PC 并安裝 Linux,現(xiàn)在亞馬遜及其他云提供商基本上讓人們無(wú)需操心硬件部分。
由于用途一分為二:專用機(jī)器上運(yùn)行的“緊密耦合”應(yīng)用軟件和在公共云中運(yùn)行的“松散耦合”應(yīng)用軟件,大概 2002 年開(kāi)始這個(gè)最新動(dòng)向徹底顛覆了 HPC 供應(yīng)商,盡管兩者在底層使用實(shí)際上相同的硬件。
TOP500 榜單上的 500 臺(tái)超級(jí)計(jì)算機(jī)現(xiàn)在全都運(yùn)行 Linux
松散耦合的應(yīng)用軟件在擁有數(shù)萬(wàn)個(gè)乃至數(shù)十萬(wàn)個(gè)核心的公共云上成功地運(yùn)行,這方面有許多知名的例子。Descartes Labs 運(yùn)行眾多應(yīng)用,涉及藥物發(fā)現(xiàn)、材料科學(xué)、粒子物理學(xué)以及數(shù) PB 衛(wèi)星圖像的清潔和調(diào)校。
這些“大規(guī)模并行”應(yīng)用本身就很驚人,但缺乏“互聯(lián)”或核心到核心的低延遲網(wǎng)絡(luò)通信,而支持大型物理模擬(比如地震處理、熱力學(xué)、宇宙學(xué)和天氣預(yù)報(bào)等)需要這種網(wǎng)絡(luò)通信。這些高度互聯(lián)的應(yīng)用之前被認(rèn)為僅適用于龐大的內(nèi)部部署系統(tǒng),比如橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的 Summit 超級(jí)計(jì)算機(jī)或中國(guó)的神威·太湖之光,后者用于借助一種名為“N體模擬”的技術(shù)來(lái)模擬宇宙的誕生。
2019 年考驗(yàn)公共云的極限
正如 Descartes Labs 團(tuán)隊(duì)最近在 2019 年 4 月的復(fù)活節(jié)周末展示的那樣,這兩條超級(jí)計(jì)算路徑可能會(huì)再次開(kāi)始趨于融合。使用 AWS 上公開(kāi)可用的競(jìng)價(jià)資源,在運(yùn)行標(biāo)準(zhǔn)的 HPC 測(cè)試:一種名為 Linpack Benchmark 的巨大矩陣反轉(zhuǎn)時(shí),達(dá)到了 1.926 petaflops 的性能。
Descartes Labs 工程團(tuán)隊(duì)當(dāng)時(shí)的目標(biāo)是使用 Linpack Benchmark 看看云的擴(kuò)展性有多好。既然它能夠在 TOP500 榜單上排名第 136 位,那么它應(yīng)該能夠?yàn)?Descartes Labs 運(yùn)行全球規(guī)模的客戶模型,包括為嘉吉(Cargill)和 DARPA 開(kāi)發(fā)的模擬。
Descartes Labs 躋身 TOP500 榜單的超級(jí)計(jì)算機(jī)的重要細(xì)節(jié)。請(qǐng)注意 AWS 上的虛擬化處理器以及 Rmax Linpack 和 Rpeak 基準(zhǔn)測(cè)試速度。
這個(gè)故事一個(gè)更值得關(guān)注的方面是,Descartes Labs 沒(méi)有要求亞馬遜給他們的工程師任何特殊的規(guī)格、折扣或定制規(guī)劃或設(shè)置。
Descartes Labs 想看看其是否可以自行打造超級(jí)計(jì)算機(jī),如果成功完成,這也將證明 AWS 的自助服務(wù)模式。
Descartes Labs 的團(tuán)隊(duì)只是遵循標(biāo)準(zhǔn)步驟來(lái)請(qǐng)求“放置組”(placement group),即高網(wǎng)絡(luò)吞吐量實(shí)例塊,這有點(diǎn)像在 AWS 基礎(chǔ)設(shè)施中預(yù)留小型橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室。
Descartes Labs 被授權(quán)訪問(wèn) AWS US-East 1 區(qū)域中的一組節(jié)點(diǎn),公司信用卡被扣除約 5000 美元的費(fèi)用。HPC 大眾化的潛力顯而易見(jiàn),因?yàn)橐赃@種速度運(yùn)行定制硬件的成本可能更接近 2000 萬(wàn)美元到 3000 萬(wàn)美元,更不用說(shuō)一年半載的等待時(shí)間了。
Mike 認(rèn)為這是“虛擬化”處理器第一次用在 TOP500 榜單上的超級(jí)計(jì)算機(jī),不過(guò) AWS 之前以性能只有四分之一的 0.484 petaflop 系統(tǒng)上榜,該系統(tǒng)被廣泛認(rèn)為在裸機(jī)硬件上運(yùn)行。
Descartes Labs 的系統(tǒng)使用獨(dú)特的技術(shù),比如 Descartes Labs 代碼與虛擬化的 AWS 英特爾 Skylake 處理器之間經(jīng)過(guò)微調(diào)的虛擬機(jī)管理程序,以及 MPI 消息傳遞的高級(jí)使用和 Packer 工具,后者用于創(chuàng)建同樣的機(jī)器映像,機(jī)器映像管理每個(gè)節(jié)點(diǎn)上的軟件配置。所有這些組合起來(lái),可能意味著 Descartes Labs 系統(tǒng)在 TOP500 榜單上因獨(dú)特的軟件類別占有一席之地。
Mike Warren 今天的愿景是讓早期的 Linux 繼續(xù)發(fā)揚(yáng)廣大。他清楚這句老話“人人知道云對(duì)緊密耦合的 HPC 來(lái)說(shuō)無(wú)用。”但他認(rèn)為事實(shí)根本并非如此。云絕對(duì)大有用途。它不是什么魔法,而是結(jié)合了經(jīng)驗(yàn)、技能和創(chuàng)新理念。出于某種原因,其他人還沒(méi)有真正嘗試過(guò)云。這有點(diǎn)像沒(méi)人知道你可以使用郵購(gòu)的 PC 來(lái)組裝自己的超級(jí)計(jì)算機(jī),或者沒(méi)人知道你可以使用 Linux,而不是處理 IBM 或 Cray 上交付的最新版本的 UNIX。
在 Descartes Labs 位于圣菲的總部,其團(tuán)隊(duì)不斷調(diào)整為全球規(guī)模的地球科學(xué)項(xiàng)目提供服務(wù)所需的理想架構(gòu)。這些項(xiàng)目包括大規(guī)模天氣模擬、地震建模中的巨型 3D 傅里葉變換以及大氣中的溫室氣體混合動(dòng)力學(xué)。
Descartes Labs 認(rèn)為,真正的 HPC 應(yīng)用軟件最終會(huì)大批遷移到云端。與傳統(tǒng)超級(jí)計(jì)算機(jī)相比具有的優(yōu)勢(shì)很難被忽視。HPC 專業(yè)人員可能以高價(jià)購(gòu)買自己的系統(tǒng),或者在高度專門化的集群上租賃時(shí)段,這個(gè)集群可能使用兩年前的舊版 Linux,需要更新。而在云端,它完全歸你控制??梢杂衅邆€(gè)不同版本運(yùn)行針對(duì)特定應(yīng)用調(diào)整的不同 Linux 內(nèi)核,而且管理起來(lái)很輕松。
總之,超級(jí)計(jì)算機(jī)歷來(lái)被用于非常特定的用途,但云可以適用于諸多用途。HPC 的大眾化正在將價(jià)位降低到公司企業(yè)可以接受的水平。
總結(jié)
以上是生活随笔為你收集整理的云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 支付宝安全获AI大赛世界第一 老外:比北
- 下一篇: 7亿光年外有个400亿倍太阳质量黑洞