OS2ATC 2021:开源协作,和而不同
12月26日由中科院軟件所主辦,清華大學、北京大學以及鑒釋科技承辦的第九屆開源操作系統年度技術會議(OS2ATC)正式拉開序幕,百余位重量嘉賓蒞臨現場,圍繞大會主題“開源協作,和而不同”共同探討操作系統開源生態和技術前沿。
此次大會以線上線下結合的模式舉辦,共吸引了超過500名業內人士參加。會議當天上午,來自清華大學、上海交通大學、香港大學等國內外高等學府的教授坐陣主會場及圓桌論壇,向大家傳遞領域內最新科技進展,下午在北京、上海、深圳三地舉行分論壇研討會,更有華為、阿里云、騰訊云、螞蟻集團等知名科技企業的技術專家圍繞往年“內核技術”、“應用生態”、“云原生”、“虛擬化技術”、“編程技術”等主題討論,以及今年特別增加的“機密計算“、”車載OS“、“硬件”這三大熱門的方向展開演講。八大分會場將同時為大家帶去各自主攻技術的主題演講,為操作系統開源協作建言獻策。
在北京的主會場上,本次會議主席,來自中科院軟件所的副總工、智能軟件研究中心主任武延軍老師致開場詞,預祝大會順利進行。
隨后來自香港大學、清華大學、上海交大、阿里、騰訊等在操作系統領域卓有建樹的專家學者帶來的精彩的技術報告:
香港大學助理教授崔鶴鳴帶來了主題為《AI大模型并行訓練系統平臺》的演講內容,其內容將發表在ASPLOS2022大會上。在演講中,他介紹了AI大模型三維分割中的流水線并行與大模型的動態性兩大問題。針對流水線并行問題,崔鶴鳴老師的研發團隊聯合華為技術專家與中科大老師研發的系統,通過在底層進行虛擬化的CPU內存管理,合理的通過一系列算法對default、Swap、recompute、Migration四大狀態進行分配,從而實現了在整個流水線高吞吐量的同時,又不會影響CPU閃存的工作狀態。
同時崔老師也介紹了其團隊后續的研究計劃,他將帶領團隊深入研究AI大模型的動態性問題,通過在三維并行之外添加全新的超網子網并行維度,實現更具性能的AI大模型訓練平臺。
在接下來的演講中,阿里云智能技術軟件部操作系統團隊負責人馬濤發表了《云計算與操作系統產業的發展》主題演講。他講述了阿里云10年的云計算發展實踐之路和云原生的發展方向:從開源CentOS到阿里OS再到去IOE浪潮,從技術的內部滿足到后來的產品化輸出,以及近兩年阿里云致力于的開源社區與生態的構建。
在演講中馬濤總結了未來操作系統產業的五大發展趨勢與機遇,即:
- 云計算時代重塑計算形態需要新的運行環境
- 后摩爾定律時代需要進一步提升計算效率
- 海量數據爆炸之下遇到的內存墻問題
- 數據安全和隱私保護推動新的計算技術
- 下個十年操作系統產業發展依然要以開源社區為中心
繼馬濤在演講中提到大數據時代的內存問題,下一位演講嘉賓清華大學陸游游副教授分享了《內存系統一致性的新探索》主題演講。針對閃存系統的崩潰一致性問題,陸游游老師的研發團隊針對存儲系統中的ordering與transaction,通過硬件的方式做出改變與嘗試。陸老師介紹的相關內容發表在OSDI2021等國際會議上。
他表示:硬件的性能越來越快,但是很多時候由于軟件功能的限制,我們并不能將硬件的性能發揮完全。比如說想要通過傳統軟件實現通過一個字節訪問接口訪問PRM是很麻煩的,但通過硬件就比較容易實現。我們所做的便是在軟硬件接口上做很小的改變,利用硬件特性擴展的一點點接口,就可以在軟件層面上實現很大的改變。
接下來,上海交通大學的糜澤羽帶來了主題為《TwinVisor:Hardware-isolated Confidential Virtual Machines for ARM》的演講,糜老師介紹的相關內容發表在OSDI2021等國際會議上。隨著有越來越多的公司和個人將數據托管于云上,來自云上的攻擊層出不窮,如何保護用戶在云上的數據安全成為一個很大的命題。在演講中,糜澤羽老師介紹了利用TrustZone技術為云用戶提供云虛擬機安全方案的系統Twinvisor。通過復用非安全世界、安全世界之外非常成熟的KVMhypervisor,統一管理物理機器上的所有資源以及NVEM,進行統一調度分配,從而保障安全。
?
在演講中,糜澤羽老師以TrustZone靜態硬件設計假設之上進行動態資源轉移的場景案例進行了進一步說明。他表示:利用Linux現有的CMA,我們可以實現動態的內存管理模式,即不用的時候內存可以為Linux其他模塊所使用,需要使用時CMA可以大面積管理連續內存。利用這一機制,我們實現了兩個世界之間協同的內存管理解決方案。
騰訊云異構計算研發負責人宋吉科為與會嘉賓分享了《騰訊云異構計算技術的演進之路》的主題演講。隨著計算異構化的趨勢愈發明顯,對于GPU產品而言,單一業務無法保障利用率,而多業務又會存在顯存隔離、算力隔離、故障隔離的三大維度問題。所以業界需要一個能夠同時滿足三大隔離行要求,同時不存在明顯短板的GPU共享解決方案。騰訊云所研發的qGPU通過在Kernel space將UMD和KMD之間的通信進行完整的攔截和控制,實習了顯存隔離、算力隔離、 故障隔離三大隔離性要求。同時qGPU支持best-effort、fixed-share與burst-share三大模式以滿足各類業務場景下的不同需求。
同時在演講中宋吉科還深入地介紹了騰訊內部虛擬team云帆團隊推出的AI加速引擎TACO。該產品由用戶態協議棧HARP、分布式訓練框架LightCC以及增強版TTensorflow三大組件組成,實現了分布式訓練加速以及推理引擎加速的功能。
高級首席工程師林曉東先生介紹了面向機器學習加速的新的x86硬件擴展:AMX(高級矩陣擴展)。AMX設計主要用于對矩陣進行操作,目的是加速機器學習工作負載。矩陣乘法是神經元網絡的關鍵操作,與VNNI(矢量神經元網絡指令)相比,AMX為矩陣乘法提供了8倍的FLOPS。伴隨著顯著的性能提升,AMX引入了一個新的寄存器文件,有8個1KB的架構寄存器。大量的寄存器給操作系統帶的進程/線程上下文切換等,特別是進程/線程狀態管理,帶來了挑戰,為此需要采用惰性切換等技術確保進程/線程管理的高效性。最后還具體介紹了AMX在TensorFlow和PyTorch等DL框架中的應用,以及Linux中的進程/線程狀態管理的方法。
在時代浪潮的推動下,作為基礎軟件的三大件之一,操作系統的創新升級與開源協作勢在必行。而每年的OS2ATC對于開發者而言,則是一個開拓技術事業,提升行業認知的良好窗口。
總結
以上是生活随笔為你收集整理的OS2ATC 2021:开源协作,和而不同的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 匿名提问:rm -rf了怎么办?
- 下一篇: 深信服何朝曦:托管云为用户上云提供第三种