腾讯朱华:数据中心下一个风向的探索
導(dǎo)讀:朱華,騰訊數(shù)據(jù)中心技術(shù)發(fā)展中心總監(jiān),中國工程建設(shè)標(biāo)準(zhǔn)化協(xié)會數(shù)據(jù)中心技術(shù)委員會副主任委員,中國通信標(biāo)準(zhǔn)化協(xié)會開放數(shù)據(jù)中心委員會數(shù)據(jù)中心工作組組長,榮獲中國工程建設(shè)標(biāo)準(zhǔn)化協(xié)會頒發(fā)的2018數(shù)據(jù)中心青年科技人才獎。11月30日,朱華在2018數(shù)據(jù)中心年度峰會上發(fā)表了演講,以下為演講內(nèi)容。
談起數(shù)據(jù)中心下一個風(fēng)向的探索,我想借此回顧過往這十年,騰訊數(shù)據(jù)中心對技術(shù)發(fā)展的探索歷史。
1.一石多鳥的高壓直流
2008年到2010年,為了解決電力轉(zhuǎn)換效能的問題,我們在鹽城電信趙老師實驗室的基礎(chǔ)上,發(fā)起了240V高壓直流替代UPS的技術(shù)架構(gòu)改造項目。這是一個重構(gòu)低壓配電架構(gòu)的過程。起初我們步履維艱,而如今BAT已經(jīng)有數(shù)百萬服務(wù)器運行在這個配電架構(gòu)上了。
有意思的是,原本我們意在節(jié)能,結(jié)果獲得更大收益的是運維的便利性和運行的可靠性。縱觀整個行業(yè),所有使用這個配電架構(gòu)的數(shù)據(jù)中心,從未因高壓直流出現(xiàn)嚴(yán)重問題而影響業(yè)務(wù),反觀UPS配電架構(gòu),故障頻出,經(jīng)常導(dǎo)致業(yè)務(wù)損失慘重。
?
2.初嘗標(biāo)準(zhǔn)化和產(chǎn)品化的甜頭——微模塊
2011年到2012年,我們完善微模塊的架構(gòu),解決了IT模塊內(nèi)的標(biāo)準(zhǔn)化和部分結(jié)構(gòu)產(chǎn)品化問題。微模塊改變了原先IT模塊內(nèi)的工程做法,顛覆了以往數(shù)據(jù)中心的建設(shè)分工界面和模式,甚至打破了產(chǎn)業(yè)原先的格局。到如今,每年微模塊的產(chǎn)量為約為5000套。
?
3.萬法歸宗的諾曼底模型
到了2013年,騰訊的在青浦和深汕開展大規(guī)模數(shù)據(jù)中心建設(shè),需要規(guī)范大型(10-15萬服務(wù)器規(guī)模)數(shù)據(jù)中心規(guī)劃設(shè)計的方法論。因此我們發(fā)起了一個代號“諾曼底模型”的探索項目。這個方法論,就是一套邏輯算法。它解決了一個最重要的問題——解釋每個數(shù)據(jù)中心建設(shè)需求的邏輯,讓需求提得明白,讓設(shè)計院畫圖畫得明白,讓總包建設(shè)得明白,讓運營方接管得明白。所有項目從建筑到機(jī)電建設(shè)都是一個統(tǒng)一標(biāo)準(zhǔn)。這樣也就讓甲方、設(shè)計院、總包、驗收方等所有相關(guān)方理解一致,方向一致,把數(shù)據(jù)中心當(dāng)成一個標(biāo)準(zhǔn)的工業(yè)品而不是一個獨特的藝術(shù)孤品。
?
4.制冷設(shè)備要去水化、去工程化、產(chǎn)品化,更要本土化
早期騰訊在天津嘗試了airside freecooling的技術(shù),這個技術(shù)在美國較為成熟,但是到了中國卻表現(xiàn)出水土不服:空氣中的有害物質(zhì)直接進(jìn)入機(jī)房,損耗了IT設(shè)備。怎樣才能既充分利用外界的冷量,同時又不讓IT設(shè)備直接暴露在外?2015年我們在貴陽實驗室引進(jìn)了中國第一套來自德國GEA的空空換熱的制冷設(shè)備,并對其做了適應(yīng)中國的技術(shù)改造,從而大獲成功。這種技術(shù)交換熱量而非交換物質(zhì)——它通過工程高分子材料或者金屬材料,使內(nèi)部空氣和外部空氣進(jìn)行熱量交換,但是氣體卻是隔離的。如今,這種設(shè)備已經(jīng)完全可由中國制造,在效率上不輸于進(jìn)口產(chǎn)品,成本卻是完全折半的。行業(yè)已經(jīng)大規(guī)模應(yīng)用,整個產(chǎn)業(yè)鏈也已興起。這種技術(shù)的探索成功,收獲遠(yuǎn)不止節(jié)能本身。由于這種間接制冷的方式是去水化、去工程化的,所以它放棄了大型的水冷機(jī)組,也就是去掉了錯綜復(fù)雜管路工程。我們的制冷設(shè)備終于走上產(chǎn)品化的道路!
?
5.數(shù)據(jù)中心整體標(biāo)準(zhǔn)化和產(chǎn)品化的產(chǎn)物:T-block
實現(xiàn)制冷設(shè)備的產(chǎn)品化,讓我們有機(jī)會探索數(shù)據(jù)中心整體產(chǎn)品化。2016年我們推出了T-block技術(shù),設(shè)計了制冷方倉、IT方倉、電力方倉、中壓方倉,整個產(chǎn)業(yè)鏈也隨之跟進(jìn)。至此,數(shù)據(jù)中心能夠以完全產(chǎn)品化的方式進(jìn)行建設(shè)和交付。
?
6.諾曼底模型再進(jìn)化—— Tbase模型
2018年,為配合全國的拿地大規(guī)模自建,我們將“諾曼底模型”方法論進(jìn)化為新的大型和超大型園區(qū)的建設(shè)方法論——“Tbase模型”,以應(yīng)對30萬服務(wù)器及以上規(guī)模的數(shù)據(jù)中心規(guī)劃和設(shè)計。
這十年的探索,我們一直堅持走模塊化、標(biāo)準(zhǔn)化、產(chǎn)品化的道路。這是一個漸進(jìn)的過程,也伴隨著產(chǎn)業(yè)鏈的跟進(jìn)和培養(yǎng)。重構(gòu)傳統(tǒng)的架構(gòu)、顛覆傳統(tǒng)的建設(shè)方式的路上充滿著不為人道的艱辛。????
1.人工智能時代對數(shù)據(jù)存儲、計算、運輸?shù)母咭?/span>
至此,在硬件層面,我們似乎已經(jīng)到了一個自我突破的瓶頸和天花板,其實不然。數(shù)據(jù)中心作為基礎(chǔ)服務(wù)工業(yè),會面臨一個新的發(fā)展時期——萬物互聯(lián)的人工智能時代。以往這些年,熱度極高的云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)的發(fā)展,其實都是為了這個萬物互聯(lián)的人工智能時代做了嫁衣,為這個時代的橫空出世奠定了基礎(chǔ)。
?
人工智能的實現(xiàn),依存于幾個基礎(chǔ)條件:①海量的存儲能力②更先進(jìn)的算法③大容量、大帶寬的通信信道。大數(shù)據(jù)作為人工智能的原始依據(jù),云計算進(jìn)行高能計算和存儲,物聯(lián)網(wǎng)提供無所不在的數(shù)據(jù)采集場景,5G以極低時延的進(jìn)行高速傳送。
?
2.春江水暖鴨先知——互聯(lián)網(wǎng)巨頭迎戰(zhàn)新時代
最近阿里和騰訊的組織架構(gòu)調(diào)整,從名字上都能看出端倪:阿里新成立的BG名字后面加了”智能”。而騰訊云調(diào)整后,BG名字加上了“智慧產(chǎn)業(yè)”。自此云不再是獨立的存在,而是帶著應(yīng)用場景的存在。應(yīng)用場景是做增量,而過往我們大部分是做存量。存量意味著對原有IT的關(guān)停并轉(zhuǎn),伴隨著大量改造和遷移的艱難困苦。過程量終究是過程量,成敗之關(guān)鍵在落地的產(chǎn)業(yè)。
?
3.數(shù)據(jù)中心管理軟件發(fā)展的階段:從門面、輔助管理轉(zhuǎn)向生產(chǎn)管理
面臨新的機(jī)遇,數(shù)據(jù)中心作為一個行業(yè)的分支,實現(xiàn)萬物互聯(lián)的人工智能數(shù)據(jù)中心,需要軟硬兩手。硬件已經(jīng)準(zhǔn)備得七七八八了,那么軟件呢?數(shù)據(jù)中心,我們真正的需要什么樣的智能大腦?無人值守和人工智能的平臺,需要具備哪些先決條件以及能夠落地的場景?這是我們需要探索和實踐的下一個方向。
?
在這里,先回顧一下以往的發(fā)展情況。我羅列了數(shù)據(jù)中心管理軟件平臺發(fā)展的三個階段,總結(jié)來看,過往發(fā)展得很艱苦。
第一個階段是在2000-2010年,這時候的典型代表產(chǎn)品,就是動環(huán)以及機(jī)房3D呈現(xiàn),市場的總價值在1-10個億。我們的甲方也沒有重視這一塊,從常用的招投標(biāo)模式就可以看出,這通常是放在總包里一帶而過。廠商們更注重以酷炫的3D視覺效果去掙得甲方的眼球,并無實用。這段時期,我歸納為“門面系統(tǒng)階段”。
第二個階段,2011-至今,這個時期的典型代表產(chǎn)品,就比較豐富。DCOM、DCIM、DCSM、DCRM開始從設(shè)備、人、流程的角度去把控信息,并且以數(shù)據(jù)和報表呈現(xiàn),去進(jìn)行設(shè)備健康管理、資產(chǎn)管理、簡單的成本和容量管理。市場的總價值在10-50億。甲方也開始獨立地準(zhǔn)備技術(shù)規(guī)格書,獨立分包和招投標(biāo)。這段時期,我歸納為“輔助管理系統(tǒng)階段”。
第三個階段,就是我們大家需要一起去探索和努力達(dá)到的,結(jié)合數(shù)據(jù)中心的硬件產(chǎn)品,它的市場的價值或可超過1000億。這個時期,我把它歸納為“生產(chǎn)管理系統(tǒng)階段“。它將再一次顛覆運維的大部分模式、習(xí)慣以及組織分工界面。少人值守、無人值守、人工智能將數(shù)據(jù)中心的運維管理系統(tǒng)提升到生產(chǎn)管理系統(tǒng),其重要性不可同日而語。
4.整裝待發(fā)的產(chǎn)業(yè)鏈
產(chǎn)業(yè)鏈對于新時代到來的準(zhǔn)備充分嗎?首先我們來看各種傳感器的準(zhǔn)備情況:這個時代,我們需要大量的便于部署的傳感器,來當(dāng)我們的眼睛和耳朵,我們需要無線且無源的,大家看,從測溫、測速、測噪音、測定位、測污染以及熱成像,甚至各種控制器、執(zhí)行機(jī)構(gòu)都應(yīng)有盡有,產(chǎn)業(yè)已經(jīng)張開懷抱迎接我們的探索和革新了。
?
5.無人值守的應(yīng)用場景:安保、巡檢、設(shè)備的監(jiān)與控
①??? 安保:
這里我們簡單列舉幾個人工智能無人值守的應(yīng)用場景:我們從人力比較密集的安保人員開始,向科技要人力,減少安防人員眼看、手摸、跑腿等工作。事前,我們使用安防安保機(jī)器人,大量部署高清視頻攝像頭,通過主動監(jiān)控防御,提前劃定監(jiān)控區(qū)域,界定重要物品監(jiān)控列表,對火災(zāi)重點防范區(qū)域進(jìn)行布控。事中,我們通過算法對人的行為進(jìn)行預(yù)判,對可疑人員、可疑物資進(jìn)行預(yù)警。事后,我們可以快速分析和提取數(shù)據(jù)。有著人工智能的機(jī)器人,比人更可靠,比人更吃苦耐勞而不知疲倦和躲懶。這一個場景的應(yīng)用,我們的目標(biāo)是在超大型園區(qū)減少一半的安保人員配備。
②???巡檢:除安保外,人工智能的應(yīng)用可以取代部分日常巡檢的工作,這些帶著各種傳感能力的機(jī)器人可以在日常巡檢中實時傳遞視頻、聲音、味道,這些信息傳輸?shù)胶笈_與基礎(chǔ)設(shè)施原先的采集數(shù)據(jù)進(jìn)行比對和有益補(bǔ)充。這個場景的應(yīng)用,我們的目標(biāo)是減配基礎(chǔ)設(shè)施巡檢人員近三成。
③???設(shè)備的監(jiān)與控:實現(xiàn)無人值守,需要大量的自動化執(zhí)行機(jī)構(gòu),這是我們重點強(qiáng)化的區(qū)域。最近,我考察了很多的設(shè)備廠家,對于電力的自控,我們現(xiàn)在可以使用電操,操控列頭柜的開關(guān),使其能夠按照我們的指令執(zhí)行機(jī)柜的開關(guān)電。在演練或者大面積故障時,從中壓側(cè)一直到低壓側(cè),從柴油發(fā)電機(jī)到機(jī)柜都可以做到遠(yuǎn)程自動執(zhí)行。
?
實現(xiàn)無人值守和人工智能,有一個特別切題的應(yīng)用場景,這就是制冷自動控制場景。在間接制冷產(chǎn)品化后,空調(diào)去水了,從原先異常復(fù)雜繁多的控制器件,簡化到數(shù)十個控制器件,大大降低了自控和智能的門檻。我們可以根據(jù)不同地域、不同場地,優(yōu)化我們的算法,實現(xiàn)精細(xì)化管理,把制冷的狀況調(diào)整的最優(yōu),實現(xiàn)節(jié)能和穩(wěn)定的運維環(huán)境。這是一個重點,同時也是我們探索的關(guān)鍵。
針對設(shè)備監(jiān)控管理,我這里列舉一個電池健康管理的案例。眾所周知,數(shù)據(jù)中心里所有的設(shè)備可以分為三個大類,一個是化學(xué)類,一個是電子類,一個是機(jī)械類。化學(xué)類的是最容易也是最快進(jìn)入故障高發(fā)階段的,而且化學(xué)類的設(shè)備一旦出現(xiàn)故障是最要命的。而對電池的設(shè)備健康管理是最典型的對“化學(xué)類”設(shè)備的管理。我們采集電池的電壓、內(nèi)阻、溫度三個狀態(tài)量,20秒一次,一天就是一萬多條數(shù)據(jù),一年就是差不多5百萬條數(shù)據(jù)。一條數(shù)據(jù)是個點,一系列數(shù)據(jù)就是線,我們現(xiàn)在監(jiān)測近10萬個電池,那就是一個異常龐大的數(shù)據(jù)立面。這個時候,我們可以不用人為的經(jīng)驗來判斷,可以顛覆原先的因果關(guān)系,直接憑借這個立體的海量數(shù)據(jù)來判斷這個電池是否存在異常,是否要更換。平臺可以直接發(fā)出處理的指令,防患于未然。
《黃帝內(nèi)經(jīng)》說道:“是故圣人不治已病治未病,不治已亂治未亂。”面對海量巨型復(fù)雜的數(shù)據(jù)中心,現(xiàn)在的人類的科學(xué)人工智能的方式,正是體現(xiàn)了這種事前管理,消除隱患于未然的古人思想之精髓。
總結(jié)
以上是生活随笔為你收集整理的腾讯朱华:数据中心下一个风向的探索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tencent Blade team荣获
- 下一篇: 腾讯胡珀:数字时代,每个人的安全都值得被