灾备理论-可靠的异地灾备
1. 技術(shù)背景
1.1.? 災(zāi)備評價指標(biāo)
業(yè)界普遍數(shù)據(jù)丟失量和系統(tǒng)恢復(fù)時間作為標(biāo)準(zhǔn),對某個容災(zāi)系統(tǒng)進行評價,公認(rèn)的評價標(biāo)準(zhǔn)是RPO和RTO。
RPO(RecoveryPointObjective):恢復(fù)點目標(biāo),以時間為單位,即在災(zāi)難發(fā)生時,系統(tǒng)和數(shù)據(jù)必須恢復(fù)到的時間點要求。RPO標(biāo)志系統(tǒng)能夠容忍的最大數(shù)據(jù)丟失量,系統(tǒng)容忍丟失的數(shù)據(jù)量越小,RPO的值越小。
RTO(RecoveryTimeObjective):恢復(fù)時間目標(biāo),以時間為單位,即在災(zāi)難發(fā)生后,信息系統(tǒng)或業(yè)務(wù)功能從停止到必須恢復(fù)的時間要求。RTO標(biāo)志系統(tǒng)能夠容忍的服務(wù)停止的最長時間。系統(tǒng)服務(wù)的緊迫性要求越高,RTO的值越小。
RPO針對的是數(shù)據(jù)丟失,RTO針對的是服務(wù)丟失,兩者沒有必然的聯(lián)系,并且兩者的確必須在進行風(fēng)險分析和業(yè)務(wù)影響分析之后根據(jù)業(yè)務(wù)的需求來確定。
?
1.2.? 災(zāi)難恢復(fù)能力等級
要建設(shè)容災(zāi)系統(tǒng),就必須提出相應(yīng)的設(shè)計指標(biāo),以此作為衡量和選擇容災(zāi)解決方案的參數(shù)。目前,國際上通用的容災(zāi)系統(tǒng)的評審標(biāo)準(zhǔn)為SHARE 78,主要包括以下內(nèi)容。
●備份/恢復(fù)的范圍
●災(zāi)難恢復(fù)計劃的狀態(tài)
●業(yè)務(wù)中心與容災(zāi)中心之間的距離
●業(yè)務(wù)中心與容災(zāi)中心之間如何連接
●數(shù)據(jù)是怎樣在兩個中心之間傳送的
●允許有多少數(shù)據(jù)丟失
●保證更新的數(shù)據(jù)在容災(zāi)中心被更新
●容災(zāi)中心可以開始容災(zāi)進程的能力
SHARE 78是建立容災(zāi)系統(tǒng)的一種評審標(biāo)準(zhǔn)。建立容災(zāi)系統(tǒng)的最終目的,是為了在災(zāi)難發(fā)生后能夠以最快速度恢復(fù)數(shù)據(jù)服務(wù),主要體現(xiàn)在RTO和RPO上。在SHARE?78的基礎(chǔ)上,國家質(zhì)量監(jiān)督檢驗檢疫總局和國家標(biāo)準(zhǔn)化管理委員會聯(lián)合制定規(guī)范了適合我國國情的RTO/RPO與災(zāi)難恢復(fù)能力等級的關(guān)系。
RTO/RPO與災(zāi)難恢復(fù)能力等級的關(guān)系表:
| 等級 | RPO | RTO | 備注 |
| 1級 | 2天以上 | 1天至7天 | <0.1% |
| 2級 | 24小時以上 | 1天至7天 | 90% |
| 3級 | 12小時以上 | 數(shù)小時至1天 | 6% |
| 4級 | 數(shù)小時至2天 | 數(shù)小時至1天 | <0.5% |
| 5級 | 數(shù)分鐘至2天 | 0至30分鐘 | <0.1% |
| 6級 | 數(shù)分鐘 | 0 | 3% |
?
1.3.? 容災(zāi)的分類
由于容災(zāi)包含的內(nèi)容比較廣泛,對容災(zāi)的分類也可以從多個方面進行。總的來講,可以從容災(zāi)的范圍和容災(zāi)的內(nèi)容來區(qū)分。
從容災(zāi)的范圍講,容災(zāi)可以分成本地容災(zāi),近距離(同城)容災(zāi)和遠(yuǎn)距離(異地)容災(zāi)。這三種容災(zāi)能容的災(zāi)難是不相同的,采用的容災(zāi)技術(shù)也是不同的。
從容災(zāi)的層次講,容災(zāi)又可以分成數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi),數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的基礎(chǔ),沒有數(shù)據(jù)的一致性,就沒有應(yīng)用的連續(xù)性,應(yīng)用容災(zāi)也是無法保證的。數(shù)據(jù)容災(zāi)是指建立一個備用的數(shù)據(jù)系統(tǒng),該備用系統(tǒng)對生產(chǎn)系統(tǒng)的關(guān)鍵數(shù)據(jù)進行備份。
應(yīng)用容災(zāi)則是在數(shù)據(jù)容災(zāi)之上,建立一套與生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)。在災(zāi)難發(fā)生后,將應(yīng)用迅速切換到備用系統(tǒng),備份系統(tǒng)承擔(dān)生產(chǎn)系統(tǒng)的業(yè)務(wù)運行。
?
1.4.? 主流數(shù)據(jù)容災(zāi)技術(shù)
1.4.1.?? 數(shù)據(jù)備份
數(shù)據(jù)備份是系統(tǒng)、數(shù)據(jù)容災(zāi)的基礎(chǔ),也是低端容災(zāi)的實現(xiàn),是高端容災(zāi)(實時數(shù)據(jù)保護)的有力保障。目前備份技術(shù)主要有快照備份、離線備份、異地存儲備份。備份系統(tǒng)通過備份策略,對計算機信息系統(tǒng)的操作系統(tǒng)、文件系統(tǒng)、應(yīng)用程序、數(shù)據(jù)庫系統(tǒng)等數(shù)據(jù)集,實現(xiàn)某一時間點的完整拷貝,拷貝的數(shù)據(jù)處在非在線狀態(tài),不能被立刻訪問,必須通過相應(yīng)操作,如恢復(fù)等方式使用備份數(shù)據(jù)。這也解決了高端容災(zāi)(實時數(shù)據(jù)保護)不能解決的問題:人為誤操作、惡意性操作等,這類操作,計算機系統(tǒng)是不能區(qū)分的,一旦執(zhí)行,將造成數(shù)據(jù)中心、災(zāi)備中心同時修改;對于數(shù)據(jù)庫系統(tǒng),在日志方式下,可以通過回滾方式修改,對于文件系統(tǒng)、操作系統(tǒng)等其他配置信息是不能回滾的,將造成毀滅性的結(jié)果。因此在建設(shè)高端容災(zāi)系統(tǒng)的前提,一定要做好本地系統(tǒng)的備份,這是容災(zāi)技術(shù)的起點。
目前成熟的備份軟件有Symantec NetBackup、EMC Legato,IBM TSM,HP Protect Server等等。
?
1.4.2.?? 實時數(shù)據(jù)保護
實時數(shù)據(jù)保護,就是在多塊磁盤上、多個陣列、多臺服務(wù)器、多個數(shù)據(jù)中心實時的保存同一份數(shù)據(jù)的多份存儲,目的是為了避免物理故障,數(shù)據(jù)不會因為一塊磁盤、一個陣列、一臺服務(wù)器、一個數(shù)據(jù)中心的故障,而不能訪問。
實時數(shù)據(jù)保護需要以數(shù)據(jù)備份作為前提,它不能防范人為誤操作和惡性操作。這里我們要強調(diào)容災(zāi)的目的是讓數(shù)據(jù)在災(zāi)難發(fā)生時,還能被訪問,通過實時數(shù)據(jù)保護,保證數(shù)據(jù)的完整性;因此實時數(shù)據(jù)保護是容災(zāi)手段,而不是目的。目前實時數(shù)據(jù)保護的技術(shù)主要有兩種:數(shù)據(jù)鏡像和數(shù)據(jù)復(fù)制。
?
1.4.2.1.??? 數(shù)據(jù)鏡像(Mirroring)
數(shù)據(jù)鏡像(Mirroring)是冗余的一種類型,一個磁盤上的數(shù)據(jù)在另一個磁盤上存在一個完全相同的副本即為鏡像。數(shù)據(jù)鏡像分為軟件鏡像與硬件鏡像,鏡像軟件有Symantec Volume Manager;各硬件廠商都有基于自己陣列的硬件鏡像方式。
在通過SAN的支持,DWDM的拓展,光纖網(wǎng)絡(luò)可以擴展到100公里或更遠(yuǎn),鏡像可以在較遠(yuǎn)的兩個數(shù)據(jù)中心的磁盤上建立。但由于鏡像系統(tǒng)是以同步方式實現(xiàn)的,受到距離、光纖協(xié)議、和相關(guān)協(xié)議轉(zhuǎn)換的影響,同步方式會影響本地服務(wù)器的性能,所以,一般建議在<20公里的同城容災(zāi)中使用,在遠(yuǎn)程容災(zāi)中可作為一種加強方案與遠(yuǎn)程容災(zāi)方案整合。
基于SAN的鏡像支持所有的類型數(shù)據(jù)同步,包括文件數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、裸設(shè)備、應(yīng)用配置文件、應(yīng)用程序、庫函數(shù)等,因而支持各類應(yīng)用系統(tǒng)容災(zāi),包括數(shù)據(jù)庫、中間件、客戶自己開發(fā)的應(yīng)用,適用于2層架構(gòu)、3層或多層應(yīng)用架構(gòu)。
?
1.4.2.2.??? 數(shù)據(jù)復(fù)制(Replication)
數(shù)據(jù)復(fù)制(Replication)是將一個原數(shù)據(jù)的及其改動,通過后續(xù)機制拷貝到另外一處,可以是另一個磁盤、另一個陣列、另一個服務(wù)器、另一個數(shù)據(jù)中心。由于實現(xiàn)的機制不同,又分為同步復(fù)制和異步復(fù)制兩種方式。同步復(fù)制,能夠確保兩份數(shù)據(jù)完全一致,但對系統(tǒng)的影響較大,一般不會采用;異步復(fù)制,通過后續(xù)機制,確保將本地改動的數(shù)據(jù)復(fù)制的異地,對系統(tǒng)的影響較小,但數(shù)據(jù)同步有延遲,是目前實現(xiàn)遠(yuǎn)程數(shù)據(jù)同步的主要方法。
根據(jù)實現(xiàn)機制,數(shù)據(jù)復(fù)制分為軟件方式和硬件方式;硬件方式往往又被稱為遠(yuǎn)程鏡像。此外還有數(shù)據(jù)庫復(fù)制和基于SAN的卷復(fù)制。
軟件復(fù)制有Symantec Volume Replicator(簡稱VVR)、Datacore 等,軟件復(fù)制可以跨硬件平臺,可以實現(xiàn)多廠商集成,其中VVR是基于卷的復(fù)制,復(fù)制的數(shù)據(jù)可以是數(shù)據(jù)庫中的數(shù)據(jù)(文件方式或裸設(shè)備方式),數(shù)據(jù)庫日志,復(fù)制的數(shù)據(jù)也可以是各種文件,如應(yīng)用和數(shù)據(jù)庫配置文件,應(yīng)用程序,庫文件,等等。Datacore是基于block的復(fù)制,類似于硬件的復(fù)制,處于卷的更底層,與基于卷的復(fù)制不同的是,他具有應(yīng)用操作系統(tǒng)的獨立性,數(shù)據(jù)的遠(yuǎn)程復(fù)制與操作系統(tǒng)無關(guān),并且不需要遠(yuǎn)端主機應(yīng)用系統(tǒng)的運行,支持異步和同步的方式,并且與硬件存儲子系統(tǒng)不同的是,Datacore可以實現(xiàn)異構(gòu)存儲子系統(tǒng)的集中管理,打破了單一廠商選擇的限制,對于磁盤子系統(tǒng)的選擇更加靈活。
硬件復(fù)制一般是相同品牌之間的磁盤子系統(tǒng)的操作。具有一定的限制性,純硬件復(fù)制有HDS TrueCopy、EMC SRDF等。硬件復(fù)制通過基于硬件的遠(yuǎn)程磁盤鏡像實現(xiàn),其實現(xiàn)要求嚴(yán)格。只能基于同一廠商、同樣容量大小的兩個陣列來實現(xiàn)。受光纖線路影響、復(fù)制數(shù)據(jù)量大,在使用間歇性復(fù)制時,數(shù)據(jù)延遲大,磁盤容量要求4倍于源數(shù)據(jù),并且在極端情況下,不能保證數(shù)據(jù)一致性。廠商一般建議使用間歇性復(fù)制。遠(yuǎn)程磁盤鏡像(復(fù)制),在容災(zāi)實現(xiàn)中,支持所有的類型數(shù)據(jù)同步,包括文件數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、裸設(shè)備、應(yīng)用配置文件、應(yīng)用程序、庫函數(shù)等,支持各類應(yīng)用系統(tǒng)容災(zāi),包括數(shù)據(jù)庫、中間件、客戶自己開發(fā)的應(yīng)用,適用于2層架構(gòu)、3層或多層應(yīng)用架構(gòu)。
數(shù)據(jù)庫復(fù)制,Oracle Data Guard、Oracle GoldenGate、Quest SharePlex、DSG RealSync等,通過分析數(shù)據(jù)庫Redo Log和Archive Log 實現(xiàn)日志的復(fù)制,將分析結(jié)果直接或轉(zhuǎn)化為SQL語句傳到容災(zāi)中心,在容災(zāi)中通過心Apply數(shù)據(jù)庫日志或?qū)⑷罩巨D(zhuǎn)化的SQL語句重做,來保證容災(zāi)中心數(shù)據(jù)與生產(chǎn)中心數(shù)據(jù)一致。但數(shù)據(jù)庫復(fù)制也存在如下限制:一是數(shù)據(jù)庫復(fù)制,是專門針對相應(yīng)數(shù)據(jù)庫的,只能實現(xiàn)單一的數(shù)據(jù)庫復(fù)制。如果有ORACLE、SQLSERVER等多種數(shù)據(jù)庫,就必須采用相互各不相同的數(shù)據(jù)庫復(fù)制技術(shù),管理和維護工作非常復(fù)雜;二是數(shù)據(jù)庫復(fù)制技術(shù)不是一個完整的容災(zāi)解決方案,只能有限的復(fù)制數(shù)據(jù)庫數(shù)據(jù),不能復(fù)制其他的應(yīng)用程序,配置文件,就是Oracle自己的tnsnames.ora, listner.ora,initSID.ora, *.ctl也不能復(fù)制,一旦這些文件改動過,將需要管員人為操作或者需要其他軟件的管理,保證容災(zāi)中心與生產(chǎn)中心同步應(yīng)用、程序、配置文件同步。
基于SAN網(wǎng)絡(luò)的卷復(fù)制是一種新的復(fù)制方式,如Datacore的SDS。它是通過特殊的運行于操作系統(tǒng)上的SDS SAN 控制器,實際是將低端的無智能存儲變?yōu)楦叨说闹悄艽鎯?#xff0c;使得他們得以建立基于智能SAN 控制器的卷,通過這種與主機應(yīng)用無關(guān),但與SDS控制器直接相關(guān)的卷實現(xiàn)復(fù)制。此種技術(shù)較新,目前具有多家廠商均向此方向發(fā)展,其中Datacore是較早的研發(fā)廠商,當(dāng)中還有IBM的SVC和HDS的USP系列以及飛康CDP也是采用此種技術(shù)。
?
1.5.? 應(yīng)用和網(wǎng)絡(luò)容災(zāi)
數(shù)據(jù)復(fù)制是容災(zāi)的手段,不是目的,容災(zāi)的目的是數(shù)據(jù)的訪問,因此應(yīng)用的恢復(fù)和網(wǎng)絡(luò)的恢復(fù)也是容災(zāi)的關(guān)鍵。
應(yīng)用系統(tǒng)恢復(fù),這和系統(tǒng)的應(yīng)用模式直接相關(guān)。需要考慮應(yīng)用系統(tǒng)的應(yīng)用架構(gòu)。是Client/Server架構(gòu),還是Broswer/Server架構(gòu);是2層架構(gòu)、還是3層架構(gòu)、還是多層架構(gòu)。兩層架構(gòu),表示容災(zāi)中心的應(yīng)用只要啟動數(shù)據(jù)庫就可以服務(wù)了。如果是三層架構(gòu),就意味著應(yīng)用系統(tǒng)除數(shù)據(jù)庫以外,還有網(wǎng)絡(luò)服務(wù)程序,如中間件WebLogic。在容災(zāi)應(yīng)用切換時,能夠手工或自動化的將這些服務(wù)一一啟動。
在災(zāi)難發(fā)生后,應(yīng)用切換到災(zāi)備中心了,本地的應(yīng)用前端需要重新訪問容災(zāi)節(jié)點的服務(wù),帶來另外一個問題,網(wǎng)絡(luò)如何切換。實際上最簡單的辦法,就是通過外部DNS服務(wù)器,
在災(zāi)難發(fā)生后,本地應(yīng)用訪問路徑如何由指向原生產(chǎn)中心改為指向容災(zāi)中心。在災(zāi)難修復(fù)后,又需要指向原生產(chǎn)中心。最簡單得方法就是更改外部DNS服務(wù)器得IP映射關(guān)系。在災(zāi)難發(fā)生前,IP映射為生產(chǎn)中心服務(wù)器;在災(zāi)難發(fā)生后,IP由映射為容災(zāi)中心得服務(wù)器;在災(zāi)難修復(fù)后,IP又映射為生產(chǎn)中心得服務(wù)器。
當(dāng)然,在一些中間件軟件中,支持多服務(wù)器、多IP的配置,那也是可以考慮的。
?
1.6.? 容災(zāi)切換
就是在災(zāi)難發(fā)生后,數(shù)據(jù)庫切換、應(yīng)用重新啟動、網(wǎng)絡(luò)實現(xiàn)切換等等,容災(zāi)中心接管原生產(chǎn)中心的整個過程;同時還包含了在原數(shù)據(jù)中心修復(fù)后,數(shù)據(jù)庫、應(yīng)用、網(wǎng)絡(luò)需要重新切回來的整個過程。這些過程,可以通過手工切換、也可以通過自動化過程完成。
?
1.7.? 容災(zāi)演練
大部分的容災(zāi)方案,在項目實施后,很難有機會來實現(xiàn)預(yù)演,因為對于大部分方案來說,這種預(yù)演活動,需要耗費大量的人力財力。
但是這種預(yù)演是必不可少的,它是實時測試目前的容災(zāi)方案的漏洞,保證容災(zāi)方案在災(zāi)難發(fā)生時,能夠真正生效。
?
?
2. 災(zāi)備系統(tǒng)建設(shè)
2.1.? 災(zāi)備系統(tǒng)選型要素
容災(zāi)技術(shù)的選擇,是一個以業(yè)務(wù)容災(zāi)需求為核心,多種因素綜合權(quán)衡的過程。容災(zāi)技術(shù)選擇所需考慮的因素
一、業(yè)務(wù)分析結(jié)果
容災(zāi)系統(tǒng)建設(shè)應(yīng)根據(jù)業(yè)務(wù)分析結(jié)果選擇合適的容災(zāi)技術(shù)并確定具體的實現(xiàn)策略,以滿足業(yè)務(wù)恢復(fù)時相應(yīng)的RTO、RPO指標(biāo)。
二、業(yè)務(wù)關(guān)聯(lián)程度
在進行容災(zāi)技術(shù)選擇時,需要考慮到核心業(yè)務(wù)系統(tǒng)各種業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系。業(yè)務(wù)關(guān)聯(lián)緊密,數(shù)據(jù)的藕合程度高,可能會造成所有關(guān)聯(lián)的業(yè)務(wù)都要采用同一種容災(zāi)技術(shù),業(yè)務(wù)關(guān)聯(lián)松散,數(shù)據(jù)的藕合程度低,可能會針對不同的業(yè)務(wù)要求進行區(qū)分,分別采用不同的容災(zāi)技術(shù)。
三、系統(tǒng)現(xiàn)狀
核心業(yè)務(wù)系統(tǒng)容災(zāi)技術(shù)必須充分考慮與現(xiàn)有系統(tǒng)的配合。現(xiàn)有核心業(yè)務(wù)系統(tǒng)的應(yīng)用分布、應(yīng)用的實現(xiàn)方式、硬件設(shè)備平臺的種類、存儲數(shù)據(jù)量的大小、IO吞吐量的大小等,都會對容災(zāi)技術(shù)的選擇產(chǎn)生影響。
四、技術(shù)成熟度
容災(zāi)系統(tǒng)必須采用成熟可靠的技術(shù),保證系統(tǒng)特續(xù),穩(wěn)定的運行。該技術(shù)應(yīng)具有類似于電信業(yè)務(wù)運營支撐系統(tǒng)容災(zāi)建設(shè)的成功案例,不能由于技術(shù)手段的不成熟或不穩(wěn)定而增加核心業(yè)務(wù)系統(tǒng)新的風(fēng)險。
五、容災(zāi)系統(tǒng)環(huán)境
核心業(yè)務(wù)系統(tǒng)容災(zāi)技術(shù)必須考慮生產(chǎn)中心與容災(zāi)中心之間的距離,網(wǎng)絡(luò)環(huán)境等因素,不同的技術(shù)對距離,網(wǎng)絡(luò)帶寬的要求會有所不同。
六、管理維護難度
不同的容災(zāi)技術(shù)對管理維護的要求各不相同,在同等條件下,應(yīng)采用易于管理和維護的容災(zāi)技術(shù)。
七、成本分析
不同的容災(zāi)技術(shù)對軟硬件投資,實施維護成本的要求各不相同,在同等條件下,應(yīng)采用總體成本最小的容災(zāi)技術(shù)。
?
2.2.? 災(zāi)難事件分析
我們擬通過災(zāi)備系統(tǒng)實現(xiàn)如下災(zāi)難事件的處理。
?
2.2.1.?? 數(shù)據(jù)庫邏輯損壞
由于誤操作等原因,數(shù)據(jù)庫會出現(xiàn)表的記錄丟失或損壞情況。面對這種災(zāi)難,需要借助于快照技術(shù)將將丟失或損壞的記錄導(dǎo)入到生產(chǎn)數(shù)據(jù)庫中。
可采用ORACLE自身的機制或者CDP等快照技術(shù)事項,整個過程生產(chǎn)數(shù)據(jù)庫不停止。對于這種災(zāi)難,可實現(xiàn)平臺RPO=0,RTO=0,但對相關(guān)業(yè)務(wù)有影響。
?
2.2.2.?? 存儲級故障
磁盤陣列故障是一種極為嚴(yán)重的威脅,對于業(yè)務(wù)系統(tǒng)具有致命的殺傷力。IDC機房存儲故障將直接導(dǎo)致核心數(shù)據(jù)庫宕機,導(dǎo)致相關(guān)業(yè)務(wù)系統(tǒng)的完全癱瘓。
這種情況下必須啟動本地災(zāi)備系統(tǒng)實現(xiàn)數(shù)據(jù)庫的遷移,或者啟動異地災(zāi)備系統(tǒng),實現(xiàn)應(yīng)用的遷移。
對于該故障,可以采用DATAGUARD、存儲級復(fù)制、CDP技術(shù)加以處理。其中采用ORACLE自身的DATAGUARD機制將有分鐘級別的數(shù)據(jù)丟失和服務(wù)中斷,使用存儲級復(fù)制和CDP技術(shù)可實現(xiàn)數(shù)據(jù)庫不中斷運行,而且數(shù)據(jù)丟失為零。
?
2.2.3.?? 核心網(wǎng)絡(luò)設(shè)備故障
這種情況下往往導(dǎo)致對外服務(wù)完全中斷或或者產(chǎn)能受嚴(yán)重影響,必須啟用異地災(zāi)備中心。
?
2.2.4.?? 運營商災(zāi)難
主要指運營商機房供電或者核心出口鏈路發(fā)生故障,導(dǎo)致業(yè)務(wù)系統(tǒng)全線中斷,在RTO時間內(nèi)無法修復(fù)的建議需要切換到異地災(zāi)備中心。
?
2.2.5.?? 地區(qū)性災(zāi)難
地區(qū)性災(zāi)難主要指城市級別的災(zāi)難,比如地震、海嘯等不可抗力,這種情況下往往導(dǎo)致IDC機房對外服務(wù)完全中斷,必須啟用異地的災(zāi)備中心。
?
2.3.? 理想的容災(zāi)系統(tǒng)
容災(zāi)系統(tǒng)的建立,通常需要通過分步實施,逐漸建立一套完善的系統(tǒng)容災(zāi)解決方案。理想的容災(zāi)系統(tǒng)有如下典型的特征:
一、擁有完備的本地數(shù)據(jù)備份
通過相應(yīng)的備份軟件,對目前所有的計算機系統(tǒng),做好完善的數(shù)據(jù)備份,特別是做好操作系統(tǒng)備份、文件系統(tǒng)備份、數(shù)據(jù)庫系統(tǒng)文件備份、數(shù)據(jù)庫數(shù)據(jù)文件備份、相關(guān)的核心應(yīng)用程序備份;建立好完善的備份/恢復(fù)機制和遠(yuǎn)程磁帶保管機制。
這也是實現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制容災(zāi)的基礎(chǔ),容災(zāi)中心與生產(chǎn)中心的數(shù)據(jù)初始化同步,一般都是通過磁帶備份恢復(fù)方式,實現(xiàn)一個同步起點。
二、存儲、應(yīng)用整合
存儲整合是指通過相關(guān)的產(chǎn)品選擇,將各服務(wù)器的數(shù)據(jù)、或應(yīng)用,通過基于一定的管理及后續(xù),實現(xiàn)數(shù)據(jù)的快照、鏡像等技術(shù),遷移到外置基于SAN的陣列庫中,通過唯一的管理接口,實現(xiàn)統(tǒng)一管理,屏蔽不同廠商陣列的差異。
三、異地實時數(shù)據(jù)同步
?????? 為了控制RTO,異地災(zāi)備中心必須采用有效的數(shù)據(jù)同步機制和主生產(chǎn)進行實時的數(shù)據(jù)同步,確保災(zāi)難發(fā)生時業(yè)務(wù)系統(tǒng)可以進行高效的切換,而對數(shù)據(jù)的丟失也控制在合理的水平。
四、擁有可靠的同城堡壘節(jié)點
同城災(zāi)備中心主要是用于防范生產(chǎn)中心機房或樓宇發(fā)生的災(zāi)難,異地災(zāi)備中心用于防范大規(guī)模區(qū)域性災(zāi)難。同城災(zāi)備中心由于其與生產(chǎn)中心處于同一個城市,可采用較好的網(wǎng)絡(luò)線路如光纖與生產(chǎn)中心進行連接,因此數(shù)據(jù)復(fù)制和應(yīng)用切換比較容易實現(xiàn),可實現(xiàn)生產(chǎn)與災(zāi)備中心之間數(shù)據(jù)的實時復(fù)制和應(yīng)用的快速切換。
五、擁有可靠的異地容災(zāi)節(jié)點
異地災(zāi)備中心由于其與生產(chǎn)中心不在同一城市,災(zāi)備端與生產(chǎn)端連接的網(wǎng)絡(luò)線路帶寬和質(zhì)量存在一定的限制,一般適合于數(shù)據(jù)的異步復(fù)制,應(yīng)用系統(tǒng)的切換也需要一定的時間,因此異地災(zāi)備中心可以實現(xiàn)在業(yè)務(wù)限定的時間內(nèi)進行恢復(fù)和可容忍丟失范圍內(nèi)的數(shù)據(jù)恢復(fù)。
?
總結(jié)
以上是生活随笔為你收集整理的灾备理论-可靠的异地灾备的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 17、有名管道与无名管道之间的区别
- 下一篇: YUMI~~强大的USB启动盘制作工具!