云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位
Descartes Labs 打造了世界上速度最快的 TOP500 超級計算機之一,這也是這份榜單上第一個在虛擬化公共云資源上運行的系統(tǒng)。
Descartes Labs 的 Linpack Benchmark 得分為 1.926 petaflops,使用 AWS 上公開可用的云資源
早在 1998 年,Mike Warren 及其在洛斯阿拉莫斯國家實驗室的同事們組裝了第一個躋身世界上速度最快的超級計算機 TOP500 榜單的 Linux 集群,一年后他第二次摘得高性能計算領(lǐng)域的最高獎戈登·貝爾(Gordon Bell)獎。
如今,21 年后他領(lǐng)導(dǎo) Descartes Labs 的技術(shù)團隊,完成了另一個開創(chuàng)先河的壯舉:使用公共云中的虛擬化資源,創(chuàng)下了新的性能基準記錄,獲得的運算速度(petaflops)比 2010 年世界上最快的計算機更勝一籌。
Mike 在 1998 年使用 Linux 稱得上是個另類,因為榜單上另外 499 臺超級計算機每一臺使用五花八門的專有操作系統(tǒng)。他早已厭倦了在 IBM、Sun 和五六種版本的 UNIX 之間移植代碼,因此 Linux 提供的硬件和軟件分離這個優(yōu)點得到了積極的支持。
除了可擴展性、互操作性和全球社區(qū)等其他優(yōu)點外,Linux 還讓 Mike 及 HPC 的其他創(chuàng)新者得以通過將商用 PC 組裝成各自的定制超級計算機,改變游戲規(guī)則。
Mike Warren 在 1998 年展示了第一臺躋身 TOP500 榜單的 Linux 超級計算機
今天,曾經(jīng)的孤例現(xiàn)在成了事實上的標準,因為 TOP500 超級計算機榜單上的每一臺都運行 Linux。采用 Linux 操作系統(tǒng)表明簡化 HPC 應(yīng)用軟件的設(shè)計和部署方面迎來了巨大飛躍。過去,相關(guān)人員會購買一個特殊的 IBM 或 Cray 系統(tǒng),然后很容易購買郵購的 PC 并安裝 Linux,現(xiàn)在亞馬遜及其他云提供商基本上讓人們無需操心硬件部分。
由于用途一分為二:專用機器上運行的“緊密耦合”應(yīng)用軟件和在公共云中運行的“松散耦合”應(yīng)用軟件,大概 2002 年開始這個最新動向徹底顛覆了 HPC 供應(yīng)商,盡管兩者在底層使用實際上相同的硬件。
TOP500 榜單上的 500 臺超級計算機現(xiàn)在全都運行 Linux
松散耦合的應(yīng)用軟件在擁有數(shù)萬個乃至數(shù)十萬個核心的公共云上成功地運行,這方面有許多知名的例子。Descartes Labs 運行眾多應(yīng)用,涉及藥物發(fā)現(xiàn)、材料科學(xué)、粒子物理學(xué)以及數(shù) PB 衛(wèi)星圖像的清潔和調(diào)校。
這些“大規(guī)模并行”應(yīng)用本身就很驚人,但缺乏“互聯(lián)”或核心到核心的低延遲網(wǎng)絡(luò)通信,而支持大型物理模擬(比如地震處理、熱力學(xué)、宇宙學(xué)和天氣預(yù)報等)需要這種網(wǎng)絡(luò)通信。這些高度互聯(lián)的應(yīng)用之前被認為僅適用于龐大的內(nèi)部部署系統(tǒng),比如橡樹嶺國家實驗室的 Summit 超級計算機或中國的神威·太湖之光,后者用于借助一種名為“N體模擬”的技術(shù)來模擬宇宙的誕生。
2019 年考驗公共云的極限
正如 Descartes Labs 團隊最近在 2019 年 4 月的復(fù)活節(jié)周末展示的那樣,這兩條超級計算路徑可能會再次開始趨于融合。使用 AWS 上公開可用的競價資源,在運行標準的 HPC 測試:一種名為 Linpack Benchmark 的巨大矩陣反轉(zhuǎn)時,達到了 1.926 petaflops 的性能。
Descartes Labs 工程團隊當時的目標是使用 Linpack Benchmark 看看云的擴展性有多好。既然它能夠在 TOP500 榜單上排名第 136 位,那么它應(yīng)該能夠為 Descartes Labs 運行全球規(guī)模的客戶模型,包括為嘉吉(Cargill)和 DARPA 開發(fā)的模擬。
Descartes Labs 躋身 TOP500 榜單的超級計算機的重要細節(jié)。請注意 AWS 上的虛擬化處理器以及 Rmax Linpack 和 Rpeak 基準測試速度。
這個故事一個更值得關(guān)注的方面是,Descartes Labs 沒有要求亞馬遜給他們的工程師任何特殊的規(guī)格、折扣或定制規(guī)劃或設(shè)置。
Descartes Labs 想看看其是否可以自行打造超級計算機,如果成功完成,這也將證明 AWS 的自助服務(wù)模式。
Descartes Labs 的團隊只是遵循標準步驟來請求“放置組”(placement group),即高網(wǎng)絡(luò)吞吐量實例塊,這有點像在 AWS 基礎(chǔ)設(shè)施中預(yù)留小型橡樹嶺國家實驗室。
Descartes Labs 被授權(quán)訪問 AWS US-East 1 區(qū)域中的一組節(jié)點,公司信用卡被扣除約 5000 美元的費用。HPC 大眾化的潛力顯而易見,因為以這種速度運行定制硬件的成本可能更接近 2000 萬美元到 3000 萬美元,更不用說一年半載的等待時間了。
Mike 認為這是“虛擬化”處理器第一次用在 TOP500 榜單上的超級計算機,不過 AWS 之前以性能只有四分之一的 0.484 petaflop 系統(tǒng)上榜,該系統(tǒng)被廣泛認為在裸機硬件上運行。
Descartes Labs 的系統(tǒng)使用獨特的技術(shù),比如 Descartes Labs 代碼與虛擬化的 AWS 英特爾 Skylake 處理器之間經(jīng)過微調(diào)的虛擬機管理程序,以及 MPI 消息傳遞的高級使用和 Packer 工具,后者用于創(chuàng)建同樣的機器映像,機器映像管理每個節(jié)點上的軟件配置。所有這些組合起來,可能意味著 Descartes Labs 系統(tǒng)在 TOP500 榜單上因獨特的軟件類別占有一席之地。
Mike Warren 今天的愿景是讓早期的 Linux 繼續(xù)發(fā)揚廣大。他清楚這句老話“人人知道云對緊密耦合的 HPC 來說無用。”但他認為事實根本并非如此。云絕對大有用途。它不是什么魔法,而是結(jié)合了經(jīng)驗、技能和創(chuàng)新理念。出于某種原因,其他人還沒有真正嘗試過云。這有點像沒人知道你可以使用郵購的 PC 來組裝自己的超級計算機,或者沒人知道你可以使用 Linux,而不是處理 IBM 或 Cray 上交付的最新版本的 UNIX。
在 Descartes Labs 位于圣菲的總部,其團隊不斷調(diào)整為全球規(guī)模的地球科學(xué)項目提供服務(wù)所需的理想架構(gòu)。這些項目包括大規(guī)模天氣模擬、地震建模中的巨型 3D 傅里葉變換以及大氣中的溫室氣體混合動力學(xué)。
Descartes Labs 認為,真正的 HPC 應(yīng)用軟件最終會大批遷移到云端。與傳統(tǒng)超級計算機相比具有的優(yōu)勢很難被忽視。HPC 專業(yè)人員可能以高價購買自己的系統(tǒng),或者在高度專門化的集群上租賃時段,這個集群可能使用兩年前的舊版 Linux,需要更新。而在云端,它完全歸你控制。可以有七個不同版本運行針對特定應(yīng)用調(diào)整的不同 Linux 內(nèi)核,而且管理起來很輕松。
總之,超級計算機歷來被用于非常特定的用途,但云可以適用于諸多用途。HPC 的大眾化正在將價位降低到公司企業(yè)可以接受的水平。
總結(jié)
以上是生活随笔為你收集整理的云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 支付宝安全获AI大赛世界第一 老外:比北
- 下一篇: 7亿光年外有个400亿倍太阳质量黑洞