海量服务 | 论服务器极致化海量运营交付的未来
看標(biāo)題一定會(huì)有些歧義, 總覺(jué)著是來(lái)討論航運(yùn)的, 其實(shí)是來(lái)和大家研討我廠海量服務(wù)器的營(yíng)運(yùn)。 出廠誕生之后, 經(jīng)過(guò)物流環(huán)節(jié)抵達(dá)指定數(shù)據(jù)中心, 移動(dòng)上架構(gòu)后通過(guò)檢測(cè)和配置, 再交付應(yīng)用部門使用,在數(shù)據(jù)中心恒溫恒濕的小波動(dòng)環(huán)境中運(yùn)行幾年后,一臺(tái)服務(wù)器便可以光榮地退休回收,也意味著走完了它的一生。這樣安安穩(wěn)穩(wěn)的小日子,是每個(gè)運(yùn)營(yíng)人員夢(mèng)寐以求的好時(shí)光。
然而現(xiàn)實(shí)往往是殘酷的,騰訊服務(wù)器的巨大保有量,諸多的供應(yīng)廠商和系統(tǒng)體系,廣泛分布的數(shù)據(jù)中心,不同業(yè)務(wù)的供配時(shí)效和SLA要求, 每一個(gè)點(diǎn)都對(duì)運(yùn)營(yíng)的緯度和深度提出新的挑戰(zhàn),也讓騰訊服務(wù)器運(yùn)營(yíng)團(tuán)隊(duì)多年來(lái)“有機(jī)會(huì)”去探索和解決“業(yè)內(nèi)無(wú)參照”的挑戰(zhàn)。今天給大家呈現(xiàn)的是現(xiàn)有運(yùn)營(yíng)能力,更多的是探討未來(lái)。
認(rèn)識(shí)騰訊服務(wù)器運(yùn)營(yíng)的能力,可以從騰訊云的黑石裸金屬服務(wù)器入手,從一組數(shù)據(jù)讓大家有感性認(rèn)識(shí):標(biāo)準(zhǔn)型黑石服務(wù)器,復(fù)用騰訊海量機(jī)型的5種服務(wù)器機(jī)型,可以支持29種操作系統(tǒng)預(yù)裝(含客戶定制操作系統(tǒng)),95%情況下2小時(shí)交付,最晚不超過(guò)4小時(shí),這滿足了大部分客戶的配置需求,覆蓋了Web接入/緩存/KV/數(shù)據(jù)存儲(chǔ)/大數(shù)據(jù)計(jì)算/數(shù)據(jù)庫(kù)等通用場(chǎng)景。
不止于此,另一種是黑石彈性機(jī)型服務(wù)器,以更靈活的方式提供了27000多種配置組合,2天極速交付,滿足客戶端自定義的訴求。縱觀國(guó)內(nèi)和海外,沒(méi)有一家云服務(wù)商能提供對(duì)等的配置種類和交付SLA,黑石對(duì)裸金屬服務(wù)器進(jìn)行了一次重定義。
下一張圖是對(duì)黑石服務(wù)器交付流程的一個(gè)概括,簡(jiǎn)單而直觀,反映了彈性配置機(jī)型的整體流程,通過(guò)種子機(jī)的物理改造和測(cè)試驗(yàn)證,確保交付配置的一致性,系統(tǒng)的可靠性和預(yù)期的性能。其實(shí)標(biāo)準(zhǔn)機(jī)型也使用這樣一個(gè)流程,但是交付的切入點(diǎn)不同而已。對(duì)于5類標(biāo)準(zhǔn)機(jī)型,進(jìn)行預(yù)購(gòu)和預(yù)檢,形成資源池,在客戶下單后更新BIOS/BMC配置,并灌裝操作系統(tǒng),最終驗(yàn)證交付。只有這樣,4小時(shí)以內(nèi)的交付才有可能。這里要給黑石服務(wù)器和背后的運(yùn)營(yíng)團(tuán)隊(duì)一些掌聲,展現(xiàn)了騰訊運(yùn)營(yíng)能力,也體現(xiàn)了運(yùn)營(yíng)的智慧。
能有這樣的交付能力, 得力于多年以來(lái)幾個(gè)關(guān)鍵運(yùn)營(yíng)能力的構(gòu)建:部件標(biāo)準(zhǔn)化使得部件庫(kù)扁平化,實(shí)現(xiàn)部件資產(chǎn)管理和跨廠商集中后備模式;彈性配置體系的構(gòu)建,讓我們擁有了Configuration-To-Order的流程體系,構(gòu)建了基于部件與系統(tǒng)的質(zhì)量認(rèn)證體系;運(yùn)營(yíng)自動(dòng)化打通引入/測(cè)試/運(yùn)營(yíng)/管控/質(zhì)量等關(guān)鍵點(diǎn),實(shí)現(xiàn)部件與系統(tǒng)的生命周期管理精細(xì)化和高效化,輔以自維保體系的建設(shè),逐步形成設(shè)備故障自維保和改造。快速響應(yīng)和交付效率,始終是運(yùn)營(yíng)團(tuán)隊(duì)追求的目標(biāo)。
由于海量的存在,騰訊服務(wù)器運(yùn)營(yíng)能力站上了一個(gè)新的高度,但必須保持自省的態(tài)度:我能做得更好么?對(duì)現(xiàn)有部件引入流程進(jìn)行復(fù)盤,我們不難發(fā)現(xiàn)并非所有部件都能支持靈活配置。例如,GPU和其他一些部件可能需要廠商的深度配合,對(duì)系統(tǒng)設(shè)計(jì)規(guī)格需要做工程評(píng)估和驗(yàn)證,這完全依賴于廠商的資源,時(shí)間和成本不可控,快速響應(yīng)就無(wú)從談起。由于我們與現(xiàn)有系統(tǒng)供應(yīng)商之間為簡(jiǎn)單的供配模式,系統(tǒng)規(guī)格和設(shè)計(jì)黑盒化,對(duì)現(xiàn)有采購(gòu)系統(tǒng)不具備工程化能力。“教育從娃娃抓起”,未來(lái)運(yùn)營(yíng)的入口,必須從系統(tǒng)設(shè)計(jì)開始,搭建深度的聯(lián)合開發(fā)模式,確保部件導(dǎo)入時(shí)的規(guī)格兼容性和驗(yàn)證能力。
通過(guò)服務(wù)器系統(tǒng)BMC和BIOS的自主實(shí)現(xiàn)為例,可以統(tǒng)一運(yùn)營(yíng)側(cè)的監(jiān)管控接口,簡(jiǎn)化管理封裝成本,豐富管控路徑。深入系統(tǒng)和部件設(shè)計(jì)來(lái)拓寬采集數(shù)據(jù)的緯度和顆粒度,有助于精細(xì)化的健康管理,也為后端分析平臺(tái)提供了更有價(jià)值的信息。把握系統(tǒng)散熱和供電控制設(shè)計(jì),利于建立寬泛規(guī)格的支持能力。
從服務(wù)器系統(tǒng)的設(shè)計(jì)階段開始,我們就會(huì)融入對(duì)于運(yùn)營(yíng)的理解,無(wú)縫對(duì)接運(yùn)營(yíng)系統(tǒng),實(shí)現(xiàn)高效交付和后期管理。始于此,而不止于此,新運(yùn)營(yíng)的時(shí)代正在到來(lái)!
騰訊前沿技術(shù) | 產(chǎn)品 | 行業(yè)信息交流發(fā)布平臺(tái)
?總結(jié)
以上是生活随笔為你收集整理的海量服务 | 论服务器极致化海量运营交付的未来的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 腾讯研发效率领先的秘密:高效率的工具
- 下一篇: TEG六周年 | 同心筑梦 共赢未来