开创行业先河,腾讯云攻坚技术难题,让硬盘始终在线
硬盤作為服務(wù)器數(shù)據(jù)的載體、一旦出現(xiàn)故障,就會出現(xiàn)信息的缺失和遺漏。為了解決企業(yè)級場景下,硬盤對于精準(zhǔn)海量記憶的苛刻要求,騰訊云一方面與全球領(lǐng)先的數(shù)據(jù)存儲解決方案提供商希捷合作,率先在國內(nèi)引入定制化機制,保證硬盤質(zhì)量的源頭管理;另一方面,利用大數(shù)據(jù)分析技術(shù)對硬盤健康狀況作多維度 “體檢”,實現(xiàn)了對硬盤品質(zhì)和可靠性的有效管控,為騰訊云數(shù)百萬用戶的底層數(shù)據(jù)安全能力提供了強有力保障。
據(jù)了解,在當(dāng)前大數(shù)據(jù)應(yīng)用場景中,TB 級的大容量機械式硬盤是最為廣泛的物理載體,其主流數(shù)據(jù)記錄方式普遍采用垂直磁記錄技術(shù),在該技術(shù)下主要依靠同等體積內(nèi)增加磁頭、磁碟的數(shù)量,以及增加單盤容量的方式來堆高容量。這不僅對硬盤的工藝、機械結(jié)構(gòu)、伺服系統(tǒng)、信號處理等帶來極大的挑戰(zhàn),也增加了硬盤數(shù)據(jù)管理的難題。
與此同時,大數(shù)據(jù)業(yè)務(wù)場景下往往伴隨著長時間的高工作負(fù)載,即便硬盤本身有強大的自恢復(fù)機制,但在龐大的強負(fù)載壓力下,內(nèi)部的重試糾錯機制也會影響到上層的數(shù)據(jù)讀寫,影響系統(tǒng)的穩(wěn)定性。
為有效解決這樣的難題,騰訊云攜手希捷聯(lián)合開展獨家質(zhì)量提升項目,率先在國內(nèi)云廠商中引入定制化機制,實現(xiàn)了根據(jù)自身業(yè)務(wù)需求對硬盤可靠性的“量身定制”。
希捷根據(jù)騰訊云的業(yè)務(wù)需求開發(fā)了定制化內(nèi)部日志,建立新產(chǎn)品聯(lián)合導(dǎo)入測試機制,幫助硬盤加速進(jìn)入穩(wěn)定運營期,提升產(chǎn)品的性能與穩(wěn)定性,保障用戶體驗。
經(jīng)過數(shù)月的運營統(tǒng)計數(shù)據(jù)表明,騰訊云大數(shù)據(jù)業(yè)務(wù)中希捷 12TB 硬盤的可靠性表現(xiàn)得到了顯著提升。
據(jù)騰訊服務(wù)器供應(yīng)鏈總經(jīng)理劉裕勛介紹,硬盤的健康維護(hù)是一項綜合性工程,騰訊云在硬盤數(shù)據(jù)安全防護(hù)上做了大量的探索,除了和希捷在強化源頭管理的同時,為最大程度保護(hù)云端用戶的安全和穩(wěn)定,騰訊云還借助最新的大數(shù)據(jù) AI 技術(shù)優(yōu)化硬盤的健康管理。
例如,騰訊云開發(fā)的硬盤健康度打分系統(tǒng),不僅可以智能化對單盤本身的參數(shù)進(jìn)行健康評估,識別出參數(shù)惡化的硬盤。在實際業(yè)務(wù)中,運維人員根據(jù)該打分情況,實時掌握重點客戶的硬盤健康狀況,對運行著重要業(yè)務(wù)的機器提前進(jìn)行低分盤更換,保障業(yè)務(wù)系統(tǒng)和數(shù)據(jù)安全。
實際上,除了上述高負(fù)載給硬盤帶來的威脅以外,隨著硬盤本身容量的不斷上升,其自身可靠性的挑戰(zhàn)也在不斷加大。面對這樣的挑戰(zhàn),騰訊云通過不斷優(yōu)化自身業(yè)務(wù)架構(gòu),將單盤故障做到業(yè)務(wù)零感知。
例如,騰訊云對象存儲 COS 業(yè)務(wù)中就通過就近訪問的方式減少訪問延遲。在多副本架構(gòu)下,采用一寫多讀的讀寫策略,結(jié)合容錯機制保證數(shù)據(jù)一致性。同時,基于該讀寫策略,計算框架會根據(jù)硬盤位置信息采用離數(shù)據(jù)最近的機器存儲數(shù)據(jù),很好地規(guī)避了由于單盤故障和網(wǎng)絡(luò)讀寫導(dǎo)致的延遲和服務(wù)不可用情況,有效提升了服務(wù)的可靠性。
此外,當(dāng)出現(xiàn)單塊硬盤故障的時候,騰訊云對象存儲 COS 業(yè)務(wù)會將硬盤置臟處理,同時,將請求分流至可用的硬盤上,并后端進(jìn)行無感的數(shù)據(jù)恢復(fù)措施,保障數(shù)據(jù)保持持久高可用狀態(tài)。
騰訊服務(wù)器供應(yīng)鏈總經(jīng)理劉裕勛表示:“大容量的機械硬盤仍然是當(dāng)前大數(shù)據(jù)業(yè)務(wù)的主力存儲設(shè)備。面對技術(shù)以及業(yè)務(wù)的雙重挑戰(zhàn),騰訊云除了加強與全球存儲巨頭之間的合作之外,還將進(jìn)一步依托領(lǐng)先的大數(shù)據(jù)分析技術(shù)和業(yè)務(wù)架構(gòu)的持續(xù)優(yōu)化,來全面降低硬盤故障對云端業(yè)務(wù)的影響,為數(shù)百萬用戶的數(shù)據(jù)安全保駕護(hù)航。”
總結(jié)
以上是生活随笔為你收集整理的开创行业先河,腾讯云攻坚技术难题,让硬盘始终在线的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 维护UP主权益 B站宣布AV号将全面升级
- 下一篇: 特斯拉加速推进零部件国产化,均胜电子、广