MadFS:高性能超算缓存文件系统——助力“鹏城云脑II”获世界IO500排行榜冠军...
點(diǎn)擊上方藍(lán)字關(guān)注我們
MadFS:高性能超算緩存文件系統(tǒng)
陳康,?武永衛(wèi),?鄭緯民
論文引用格式:
陳康, 武永衛(wèi), 鄭緯民. MadFS:高性能超算緩存文件系統(tǒng)[J]. 大數(shù)據(jù), 2021, 7(3): 150-152.
CHEN K,WU Y W, ZHENG W M.MadFS: a high performance burst buffer file system[J]. Big Data Research, 2021, 7(3): 150-152.
對(duì)于存儲(chǔ)系統(tǒng)來(lái)說(shuō),信息資源的爆炸性增長(zhǎng)在I/O支持應(yīng)用的性能以及數(shù)據(jù)可用性等方面提出了越來(lái)越高的要求。可以預(yù)見,人工智能、大數(shù)據(jù)和圖計(jì)算等新型計(jì)算模式對(duì)存儲(chǔ)系統(tǒng)的I/O性能更是提出了極致要求。從技術(shù)發(fā)展趨勢(shì)上來(lái)看,新型的網(wǎng)絡(luò)傳輸硬件及使用模式、新型存儲(chǔ)硬件都提供了極高的訪問(wèn)帶寬和極低的訪問(wèn)時(shí)延,這一發(fā)展趨勢(shì)導(dǎo)致現(xiàn)有的存儲(chǔ)軟件成為性能瓶頸。特別是在提供低時(shí)延訪問(wèn)上,存儲(chǔ)軟件的結(jié)構(gòu)需要進(jìn)行革新。
傳統(tǒng)的分布式文件系統(tǒng)結(jié)構(gòu)按照擴(kuò)展的方式來(lái)看,主要有兩個(gè)發(fā)展思路。一個(gè)是先對(duì)磁盤進(jìn)行擴(kuò)展,之后在擴(kuò)展的磁盤基礎(chǔ)上建立文件系統(tǒng),提供服務(wù)。這個(gè)方面的典型是Petal磁盤擴(kuò)展服務(wù)以及Frangipani文件系統(tǒng)。在高性能文件系統(tǒng)中,這個(gè)方面的典型是IBM公司的通用并行文件系統(tǒng)(general parallel file system,GPFS)。另外一個(gè)發(fā)展思路是直接對(duì)文件系統(tǒng)進(jìn)行擴(kuò)展,由一個(gè)或者少數(shù)幾個(gè)節(jié)點(diǎn)來(lái)保存元數(shù)據(jù),記錄文件數(shù)據(jù)的分布情況,其他的節(jié)點(diǎn)用來(lái)保存數(shù)據(jù)。這方面的典型是Google文件系統(tǒng)(Google file system)以及衍生的Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)。在高性能文件系統(tǒng)中,采用該思路的是大部分高性能計(jì)算機(jī)標(biāo)配的Lustre文件系統(tǒng)。傳統(tǒng)的高性能文件系統(tǒng)在構(gòu)造時(shí)大部分將磁盤作為數(shù)據(jù)的存儲(chǔ)介質(zhì)。但是,現(xiàn)有的文件系統(tǒng)不能滿足新一代的人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等的應(yīng)用,對(duì)于新的存儲(chǔ)體系結(jié)構(gòu)、新的網(wǎng)絡(luò)體系結(jié)構(gòu)帶來(lái)的高帶寬、低時(shí)延的性能優(yōu)勢(shì)也缺乏考慮。
在當(dāng)前數(shù)據(jù)密集型計(jì)算普及發(fā)展的時(shí)代,存儲(chǔ)軟件的訪問(wèn)性能直接制約了數(shù)據(jù)密集型計(jì)算的性能。下一代的存儲(chǔ)系統(tǒng)剛剛開始起步,包括Intel分布式異步對(duì)象存儲(chǔ)(distributed asynchronous object storage,DAOS)在內(nèi)的新型存儲(chǔ)結(jié)構(gòu)與系統(tǒng)正在形成。為了適應(yīng)這種趨勢(shì),清華大學(xué)計(jì)算機(jī)系的E級(jí)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)研究團(tuán)隊(duì)構(gòu)建了下一代的分布式存儲(chǔ)系統(tǒng)——MadFS,從分布式文件系統(tǒng)軟件的架構(gòu)上進(jìn)行革新,消除現(xiàn)有存儲(chǔ)架構(gòu)的系統(tǒng)性問(wèn)題,充分釋放硬件的性能,滿足下一代應(yīng)用對(duì)數(shù)據(jù)快速處理的需求。MadFS的設(shè)計(jì)以性能為第一原則,利用高速遠(yuǎn)程直接內(nèi)存訪問(wèn)(remote direct memory access, RDMA)網(wǎng)絡(luò)和NVMe SSD存儲(chǔ)設(shè)備,將數(shù)據(jù)快速分散到存儲(chǔ)節(jié)點(diǎn)上進(jìn)行持久化,達(dá)到高吞吐、低時(shí)延、高性能的特性。
MadFS的系統(tǒng)架構(gòu)設(shè)計(jì)遵循了以下3個(gè)關(guān)鍵的設(shè)計(jì)原則。
● 數(shù)據(jù)塊和元數(shù)據(jù)的全分散存儲(chǔ):傳統(tǒng)并行或者分布式文件系統(tǒng)一般使用少量節(jié)點(diǎn)管理元數(shù)據(jù),導(dǎo)致元數(shù)據(jù)節(jié)點(diǎn)成為整個(gè)系統(tǒng)的性能瓶頸。下一代分布式存儲(chǔ)系統(tǒng)MadFS將元數(shù)據(jù)分散到全部節(jié)點(diǎn)上,以避免元數(shù)據(jù)的性能瓶頸,同時(shí)數(shù)據(jù)塊也需要分散在全部節(jié)點(diǎn)上。
● 建立內(nèi)核旁路,避免操作系統(tǒng)切換開銷:為了提高系統(tǒng)的性能,MadFS采用避免應(yīng)用程序頻繁進(jìn)入操作系統(tǒng)內(nèi)核的方式來(lái)降低上下文切換的開銷。隨著I/O設(shè)備性能的不斷提高,操作系統(tǒng)進(jìn)出內(nèi)核切換的開銷日益突出,MadFS使用用戶態(tài)驅(qū)動(dòng)、協(xié)議棧等方式直接控制設(shè)備。在對(duì)應(yīng)用程序的支持上使用系統(tǒng)調(diào)用截獲技術(shù),直接在用戶態(tài)處理應(yīng)用的I/O請(qǐng)求,避免其進(jìn)入內(nèi)核。
● 語(yǔ)言級(jí)協(xié)程機(jī)制與零拷貝序列化:MadFS利用Rust語(yǔ)言內(nèi)建的異步協(xié)程機(jī)制、零拷貝序列化技術(shù)實(shí)現(xiàn)了極低開銷的任務(wù)切換和遠(yuǎn)程函數(shù)調(diào)用。高性能存儲(chǔ)系統(tǒng)常采用異步的方式處理I/O請(qǐng)求,這會(huì)給編程引入很大的復(fù)雜性。而新型編程語(yǔ)言Rust提供了利用協(xié)程處理異步邏輯的語(yǔ)言機(jī)制,可以極大地降低異步編程的復(fù)雜性,同時(shí)保持極低的任務(wù)切換開銷,保證整體的高性能。
2020年11月19日,由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系存儲(chǔ)系統(tǒng)研發(fā)團(tuán)隊(duì)研發(fā)的超算緩存文件系統(tǒng)MadFS在鵬城實(shí)驗(yàn)室“鵬城云腦Ⅱ”的IO500測(cè)試中,分別以7 043.99分和1 129.75分同時(shí)獲得全球IO500總榜第一名與10節(jié)點(diǎn)榜單第一名,這是國(guó)內(nèi)科研機(jī)構(gòu)首次奪得該排行榜榜首。“鵬城云腦Ⅱ”是一臺(tái)基于華為鯤鵬920架構(gòu)的高性能計(jì)算系統(tǒng),于2020年10月開始試運(yùn)行。本次“鵬城云腦Ⅱ”的存儲(chǔ)系統(tǒng)基于MadFS,針對(duì)“鵬城云腦Ⅱ”的硬件特征,采用了基于Rust的高可擴(kuò)展并發(fā)訪問(wèn)、大粒度數(shù)據(jù)緩存/旁路訪問(wèn)、數(shù)據(jù)訪問(wèn)/落盤流水化、零拷貝極速遠(yuǎn)程過(guò)程調(diào)用(remote procedure call,RPC)處理技術(shù)等創(chuàng)新優(yōu)化方法。
IO500是高性能計(jì)算領(lǐng)域針對(duì)存儲(chǔ)性能評(píng)測(cè)的全球排行榜,是高性能計(jì)算領(lǐng)域權(quán)威的榜單之一。IO500測(cè)試包括數(shù)據(jù)帶寬BW(GiB/s)和元數(shù)據(jù)性能MD (kIOPS)兩大部分,各項(xiàng)分?jǐn)?shù)取幾何平均后得到總分。在高性能計(jì)算領(lǐng)域,不僅CPU算力非常重要,I/O系統(tǒng)的數(shù)據(jù)傳輸更是瓶頸。自2017年11月開始,每年IO500榜單會(huì)在高性能計(jì)算領(lǐng)域的會(huì)議——全球超級(jí)計(jì)算大會(huì)(SC)和國(guó)際超級(jí)計(jì)算大會(huì)(International Supercomputing Conference)上發(fā)布。
作者簡(jiǎn)介
陳康(1976-),男,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系研究員,主要研究方向?yàn)榉植际较到y(tǒng)、存儲(chǔ)系統(tǒng)等。
武永衛(wèi)(1974-),男,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,主要研究方向?yàn)椴⑿泻头植际教幚?、云?jì)算和存儲(chǔ)等。
鄭緯民(1946-),男,中國(guó)工程院院士,清華大學(xué)計(jì)算機(jī)系教授,CCF原理事長(zhǎng),何梁何利基金科學(xué)與技術(shù)進(jìn)步獎(jiǎng)獲得者,中國(guó)存儲(chǔ)終身成就獎(jiǎng)獲得者,《大數(shù)據(jù)》期刊主編。長(zhǎng)期從事計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)、大規(guī)模數(shù)據(jù)存儲(chǔ)、高性能計(jì)算等領(lǐng)域的科研教學(xué)工作。獲國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)1次,獲國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)2次,獲國(guó)家技術(shù)發(fā)明獎(jiǎng)二等獎(jiǎng)1次。
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中國(guó)科技核心期刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦中文科技期刊,并被評(píng)為2018年、2019年國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫(kù)“綜合性人文社會(huì)科學(xué)”學(xué)科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的MadFS:高性能超算缓存文件系统——助力“鹏城云脑II”获世界IO500排行榜冠军...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python保存几位小数 format
- 下一篇: 操作系统对比和未来展望