海量服务 | 论服务器极致化海量运营交付的未来
看標(biāo)題一定會有些歧義, 總覺著是來討論航運的, 其實是來和大家研討我廠海量服務(wù)器的營運。 出廠誕生之后, 經(jīng)過物流環(huán)節(jié)抵達指定數(shù)據(jù)中心, 移動上架構(gòu)后通過檢測和配置, 再交付應(yīng)用部門使用,在數(shù)據(jù)中心恒溫恒濕的小波動環(huán)境中運行幾年后,一臺服務(wù)器便可以光榮地退休回收,也意味著走完了它的一生。這樣安安穩(wěn)穩(wěn)的小日子,是每個運營人員夢寐以求的好時光。
然而現(xiàn)實往往是殘酷的,騰訊服務(wù)器的巨大保有量,諸多的供應(yīng)廠商和系統(tǒng)體系,廣泛分布的數(shù)據(jù)中心,不同業(yè)務(wù)的供配時效和SLA要求, 每一個點都對運營的緯度和深度提出新的挑戰(zhàn),也讓騰訊服務(wù)器運營團隊多年來“有機會”去探索和解決“業(yè)內(nèi)無參照”的挑戰(zhàn)。今天給大家呈現(xiàn)的是現(xiàn)有運營能力,更多的是探討未來。
認識騰訊服務(wù)器運營的能力,可以從騰訊云的黑石裸金屬服務(wù)器入手,從一組數(shù)據(jù)讓大家有感性認識:標(biāo)準(zhǔn)型黑石服務(wù)器,復(fù)用騰訊海量機型的5種服務(wù)器機型,可以支持29種操作系統(tǒng)預(yù)裝(含客戶定制操作系統(tǒng)),95%情況下2小時交付,最晚不超過4小時,這滿足了大部分客戶的配置需求,覆蓋了Web接入/緩存/KV/數(shù)據(jù)存儲/大數(shù)據(jù)計算/數(shù)據(jù)庫等通用場景。
不止于此,另一種是黑石彈性機型服務(wù)器,以更靈活的方式提供了27000多種配置組合,2天極速交付,滿足客戶端自定義的訴求。縱觀國內(nèi)和海外,沒有一家云服務(wù)商能提供對等的配置種類和交付SLA,黑石對裸金屬服務(wù)器進行了一次重定義。
下一張圖是對黑石服務(wù)器交付流程的一個概括,簡單而直觀,反映了彈性配置機型的整體流程,通過種子機的物理改造和測試驗證,確保交付配置的一致性,系統(tǒng)的可靠性和預(yù)期的性能。其實標(biāo)準(zhǔn)機型也使用這樣一個流程,但是交付的切入點不同而已。對于5類標(biāo)準(zhǔn)機型,進行預(yù)購和預(yù)檢,形成資源池,在客戶下單后更新BIOS/BMC配置,并灌裝操作系統(tǒng),最終驗證交付。只有這樣,4小時以內(nèi)的交付才有可能。這里要給黑石服務(wù)器和背后的運營團隊一些掌聲,展現(xiàn)了騰訊運營能力,也體現(xiàn)了運營的智慧。
能有這樣的交付能力, 得力于多年以來幾個關(guān)鍵運營能力的構(gòu)建:部件標(biāo)準(zhǔn)化使得部件庫扁平化,實現(xiàn)部件資產(chǎn)管理和跨廠商集中后備模式;彈性配置體系的構(gòu)建,讓我們擁有了Configuration-To-Order的流程體系,構(gòu)建了基于部件與系統(tǒng)的質(zhì)量認證體系;運營自動化打通引入/測試/運營/管控/質(zhì)量等關(guān)鍵點,實現(xiàn)部件與系統(tǒng)的生命周期管理精細化和高效化,輔以自維保體系的建設(shè),逐步形成設(shè)備故障自維保和改造。快速響應(yīng)和交付效率,始終是運營團隊追求的目標(biāo)。
由于海量的存在,騰訊服務(wù)器運營能力站上了一個新的高度,但必須保持自省的態(tài)度:我能做得更好么?對現(xiàn)有部件引入流程進行復(fù)盤,我們不難發(fā)現(xiàn)并非所有部件都能支持靈活配置。例如,GPU和其他一些部件可能需要廠商的深度配合,對系統(tǒng)設(shè)計規(guī)格需要做工程評估和驗證,這完全依賴于廠商的資源,時間和成本不可控,快速響應(yīng)就無從談起。由于我們與現(xiàn)有系統(tǒng)供應(yīng)商之間為簡單的供配模式,系統(tǒng)規(guī)格和設(shè)計黑盒化,對現(xiàn)有采購系統(tǒng)不具備工程化能力。“教育從娃娃抓起”,未來運營的入口,必須從系統(tǒng)設(shè)計開始,搭建深度的聯(lián)合開發(fā)模式,確保部件導(dǎo)入時的規(guī)格兼容性和驗證能力。
通過服務(wù)器系統(tǒng)BMC和BIOS的自主實現(xiàn)為例,可以統(tǒng)一運營側(cè)的監(jiān)管控接口,簡化管理封裝成本,豐富管控路徑。深入系統(tǒng)和部件設(shè)計來拓寬采集數(shù)據(jù)的緯度和顆粒度,有助于精細化的健康管理,也為后端分析平臺提供了更有價值的信息。把握系統(tǒng)散熱和供電控制設(shè)計,利于建立寬泛規(guī)格的支持能力。
從服務(wù)器系統(tǒng)的設(shè)計階段開始,我們就會融入對于運營的理解,無縫對接運營系統(tǒng),實現(xiàn)高效交付和后期管理。始于此,而不止于此,新運營的時代正在到來!
騰訊前沿技術(shù) | 產(chǎn)品 | 行業(yè)信息交流發(fā)布平臺
?總結(jié)
以上是生活随笔為你收集整理的海量服务 | 论服务器极致化海量运营交付的未来的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯研发效率领先的秘密:高效率的工具
- 下一篇: TEG六周年 | 同心筑梦 共赢未来