云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位
Descartes Labs 打造了世界上速度最快的 TOP500 超級計算機之一,這也是這份榜單上第一個在虛擬化公共云資源上運行的系統。
Descartes Labs 的 Linpack Benchmark 得分為 1.926 petaflops,使用 AWS 上公開可用的云資源
早在 1998 年,Mike Warren 及其在洛斯阿拉莫斯國家實驗室的同事們組裝了第一個躋身世界上速度最快的超級計算機 TOP500 榜單的 Linux 集群,一年后他第二次摘得高性能計算領域的最高獎戈登·貝爾(Gordon Bell)獎。
如今,21 年后他領導 Descartes Labs 的技術團隊,完成了另一個開創先河的壯舉:使用公共云中的虛擬化資源,創下了新的性能基準記錄,獲得的運算速度(petaflops)比 2010 年世界上最快的計算機更勝一籌。
Mike 在 1998 年使用 Linux 稱得上是個另類,因為榜單上另外 499 臺超級計算機每一臺使用五花八門的專有操作系統。他早已厭倦了在 IBM、Sun 和五六種版本的 UNIX 之間移植代碼,因此 Linux 提供的硬件和軟件分離這個優點得到了積極的支持。
除了可擴展性、互操作性和全球社區等其他優點外,Linux 還讓 Mike 及 HPC 的其他創新者得以通過將商用 PC 組裝成各自的定制超級計算機,改變游戲規則。
Mike Warren 在 1998 年展示了第一臺躋身 TOP500 榜單的 Linux 超級計算機
今天,曾經的孤例現在成了事實上的標準,因為 TOP500 超級計算機榜單上的每一臺都運行 Linux。采用 Linux 操作系統表明簡化 HPC 應用軟件的設計和部署方面迎來了巨大飛躍。過去,相關人員會購買一個特殊的 IBM 或 Cray 系統,然后很容易購買郵購的 PC 并安裝 Linux,現在亞馬遜及其他云提供商基本上讓人們無需操心硬件部分。
由于用途一分為二:專用機器上運行的“緊密耦合”應用軟件和在公共云中運行的“松散耦合”應用軟件,大概 2002 年開始這個最新動向徹底顛覆了 HPC 供應商,盡管兩者在底層使用實際上相同的硬件。
TOP500 榜單上的 500 臺超級計算機現在全都運行 Linux
松散耦合的應用軟件在擁有數萬個乃至數十萬個核心的公共云上成功地運行,這方面有許多知名的例子。Descartes Labs 運行眾多應用,涉及藥物發現、材料科學、粒子物理學以及數 PB 衛星圖像的清潔和調校。
這些“大規模并行”應用本身就很驚人,但缺乏“互聯”或核心到核心的低延遲網絡通信,而支持大型物理模擬(比如地震處理、熱力學、宇宙學和天氣預報等)需要這種網絡通信。這些高度互聯的應用之前被認為僅適用于龐大的內部部署系統,比如橡樹嶺國家實驗室的 Summit 超級計算機或中國的神威·太湖之光,后者用于借助一種名為“N體模擬”的技術來模擬宇宙的誕生。
2019 年考驗公共云的極限
正如 Descartes Labs 團隊最近在 2019 年 4 月的復活節周末展示的那樣,這兩條超級計算路徑可能會再次開始趨于融合。使用 AWS 上公開可用的競價資源,在運行標準的 HPC 測試:一種名為 Linpack Benchmark 的巨大矩陣反轉時,達到了 1.926 petaflops 的性能。
Descartes Labs 工程團隊當時的目標是使用 Linpack Benchmark 看看云的擴展性有多好。既然它能夠在 TOP500 榜單上排名第 136 位,那么它應該能夠為 Descartes Labs 運行全球規模的客戶模型,包括為嘉吉(Cargill)和 DARPA 開發的模擬。
Descartes Labs 躋身 TOP500 榜單的超級計算機的重要細節。請注意 AWS 上的虛擬化處理器以及 Rmax Linpack 和 Rpeak 基準測試速度。
這個故事一個更值得關注的方面是,Descartes Labs 沒有要求亞馬遜給他們的工程師任何特殊的規格、折扣或定制規劃或設置。
Descartes Labs 想看看其是否可以自行打造超級計算機,如果成功完成,這也將證明 AWS 的自助服務模式。
Descartes Labs 的團隊只是遵循標準步驟來請求“放置組”(placement group),即高網絡吞吐量實例塊,這有點像在 AWS 基礎設施中預留小型橡樹嶺國家實驗室。
Descartes Labs 被授權訪問 AWS US-East 1 區域中的一組節點,公司信用卡被扣除約 5000 美元的費用。HPC 大眾化的潛力顯而易見,因為以這種速度運行定制硬件的成本可能更接近 2000 萬美元到 3000 萬美元,更不用說一年半載的等待時間了。
Mike 認為這是“虛擬化”處理器第一次用在 TOP500 榜單上的超級計算機,不過 AWS 之前以性能只有四分之一的 0.484 petaflop 系統上榜,該系統被廣泛認為在裸機硬件上運行。
Descartes Labs 的系統使用獨特的技術,比如 Descartes Labs 代碼與虛擬化的 AWS 英特爾 Skylake 處理器之間經過微調的虛擬機管理程序,以及 MPI 消息傳遞的高級使用和 Packer 工具,后者用于創建同樣的機器映像,機器映像管理每個節點上的軟件配置。所有這些組合起來,可能意味著 Descartes Labs 系統在 TOP500 榜單上因獨特的軟件類別占有一席之地。
Mike Warren 今天的愿景是讓早期的 Linux 繼續發揚廣大。他清楚這句老話“人人知道云對緊密耦合的 HPC 來說無用。”但他認為事實根本并非如此。云絕對大有用途。它不是什么魔法,而是結合了經驗、技能和創新理念。出于某種原因,其他人還沒有真正嘗試過云。這有點像沒人知道你可以使用郵購的 PC 來組裝自己的超級計算機,或者沒人知道你可以使用 Linux,而不是處理 IBM 或 Cray 上交付的最新版本的 UNIX。
在 Descartes Labs 位于圣菲的總部,其團隊不斷調整為全球規模的地球科學項目提供服務所需的理想架構。這些項目包括大規模天氣模擬、地震建模中的巨型 3D 傅里葉變換以及大氣中的溫室氣體混合動力學。
Descartes Labs 認為,真正的 HPC 應用軟件最終會大批遷移到云端。與傳統超級計算機相比具有的優勢很難被忽視。HPC 專業人員可能以高價購買自己的系統,或者在高度專門化的集群上租賃時段,這個集群可能使用兩年前的舊版 Linux,需要更新。而在云端,它完全歸你控制。可以有七個不同版本運行針對特定應用調整的不同 Linux 內核,而且管理起來很輕松。
總之,超級計算機歷來被用于非常特定的用途,但云可以適用于諸多用途。HPC 的大眾化正在將價位降低到公司企業可以接受的水平。
總結
以上是生活随笔為你收集整理的云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 支付宝安全获AI大赛世界第一 老外:比北
- 下一篇: 7亿光年外有个400亿倍太阳质量黑洞