关于腾讯云丢数据事件的一些看法
事件回顧:
創(chuàng)業(yè)公司“前沿?cái)?shù)控”8月5日發(fā)文稱,公司存放在騰訊云上的精準(zhǔn)注冊用戶以及內(nèi)容數(shù)據(jù)全部丟失,并且不能恢復(fù),造成公司平臺(tái)全部停運(yùn)的狀態(tài)。前沿?cái)?shù)控表示,公司丟失的數(shù)據(jù)近千萬元級(jí),對(duì)此索賠1000余萬元。騰訊云對(duì)此回應(yīng)稱,該事故是因受所在物理硬盤固件版本bug導(dǎo)致的靜默錯(cuò)誤(寫入數(shù)據(jù)和讀取出來的不一致)影響,文件系統(tǒng)元數(shù)據(jù)損壞,僅能賠償13萬余元現(xiàn)金或云資源的額外補(bǔ)償。截至昨晚,雙方未能就賠償方案達(dá)成一致。
看了雙方的申明,沒看到太多的技術(shù)細(xì)節(jié),前沿?cái)?shù)控只是控訴廠商沒有做到承諾,騰訊云只是簡單說了下磁盤靜默錯(cuò)誤故障以及賠償?shù)姆制?#xff0c;希望后面雙方能復(fù)盤一下詳細(xì)過程,對(duì)業(yè)界也是有益的事情。我自己從已經(jīng)透漏出的信息簡單推測一下,如果有推測的不對(duì)的地方還請指正。
首先從騰訊云給出的信息看,數(shù)據(jù)是在『操作系統(tǒng)云盤』上。先看看騰訊云主機(jī)的創(chuàng)建界面:
用戶需要定義系統(tǒng)盤以及數(shù)據(jù)盤。系統(tǒng)盤用來展開操作系統(tǒng)鏡像以及存儲(chǔ)系統(tǒng)臨時(shí)文件和日志之類的。數(shù)據(jù)盤是掛載后用來存數(shù)據(jù)的。個(gè)人推斷前沿?cái)?shù)控應(yīng)該是直接申請了一個(gè)大的系統(tǒng)盤,然后把數(shù)據(jù)都存在了上面,并沒有使用獨(dú)立的數(shù)據(jù)盤。這個(gè)推斷通過前沿?cái)?shù)控平臺(tái)的處理流程也可以印證,因?yàn)槿绻麛?shù)據(jù)存在了數(shù)據(jù)盤上,主機(jī)出了問題,首先的恢復(fù)方式應(yīng)該是重新創(chuàng)建一個(gè)主機(jī),然后把數(shù)據(jù)盤掛載過來,而不是一直等待修復(fù)主機(jī)系統(tǒng)。
但這里的『操作系統(tǒng)云盤』如何理解呢?系統(tǒng)進(jìn)程依賴操作系統(tǒng)盤,對(duì)網(wǎng)絡(luò)延遲比較敏感,一般不會(huì)遠(yuǎn)程加載,同時(shí)如果用戶正確使用,系統(tǒng)盤上的數(shù)據(jù)也不太重要(臨時(shí)文件,日志之類的),做同步多寫復(fù)制也沒必要。所以個(gè)人推斷這里的操作系統(tǒng)云盤和數(shù)據(jù)云盤實(shí)際上是兩種東西,操作系統(tǒng)云盤并沒有做到數(shù)據(jù)云盤那樣的多副本機(jī)制,或者副本機(jī)制不一樣。個(gè)人認(rèn)為這也是為什么騰訊云在聲明中只字未提副本的原因,因?yàn)槊侄冀性朴脖P,現(xiàn)在說實(shí)現(xiàn)方式不一樣,給用戶說不清楚。
但同時(shí),這里的『操作系統(tǒng)云盤』也不應(yīng)該僅僅是本地盤。因?yàn)轵v訊云對(duì)一些高 IO 的主機(jī)提供專門的本地盤,如下圖所示。
如果僅僅是本地盤,非搞出來兩個(gè)概念就比較奇怪了。本人不清楚騰訊云的實(shí)現(xiàn)方式,無法解答上面的疑問,更詳細(xì)的說明得等騰訊云官方給出解釋了。
所以整個(gè)事情的技術(shù)分析大致是這個(gè)樣子的:該用戶創(chuàng)建了一臺(tái)主機(jī),直接掛了一塊大系統(tǒng)盤,把數(shù)據(jù)都寫里面了。云主機(jī)物理磁盤損壞,系統(tǒng)無法啟動(dòng),只能反復(fù)和云廠商溝通等待恢復(fù)。云廠商的系統(tǒng)盤沒有副本或者副本機(jī)制不一樣,最后數(shù)據(jù)恢復(fù)失敗,就是現(xiàn)在這個(gè)結(jié)果了。
再談?wù)勝r償?shù)氖虑?/h2>
雙方對(duì)賠償?shù)臄?shù)額分歧較大。下圖是截取的騰訊云官方的 CBS SLA 協(xié)議:
https://cloud.tencent.com/document/product/301/9515
按照上面的協(xié)議,騰訊云頂多把云硬盤的總使用費(fèi)退換給用戶,在騰訊云看來,這次做出的賠償已經(jīng)是夠『良心』的了。因?yàn)樵茝S商認(rèn)為自己提供的服務(wù)類似于出租或者出售硬盤,你買(租)了個(gè)硬盤,然后拷了一些珍貴的數(shù)據(jù)進(jìn)去,結(jié)果硬盤壞了,你找廠商賠償,廠商也最多賠你個(gè)新的硬盤啊。
如果覺得云廠商的協(xié)議是霸王條款,不公平,那單從法理角度分析。很多人憑直覺認(rèn)為是云廠商的故障導(dǎo)致了用戶的數(shù)據(jù)丟失,就應(yīng)該賠償全部或者至少是大部分?jǐn)?shù)據(jù)的價(jià)值。且不說數(shù)據(jù)的價(jià)值如何客觀評(píng)估,即便是可以準(zhǔn)確估值,法律也需要考慮社會(huì)經(jīng)濟(jì)成本,從而劃分兩方的責(zé)任比例:
1. 誰更明白數(shù)據(jù)的價(jià)值?對(duì)云廠商來說,不同用戶,不同業(yè)務(wù)的數(shù)據(jù)之間沒太大區(qū)別,能觀測到的指標(biāo)也僅僅是數(shù)據(jù)大小。用戶自己更清楚自己的哪部分?jǐn)?shù)據(jù)重要。
2. 誰保護(hù)數(shù)據(jù)的成本更低?云廠商因?yàn)闊o法評(píng)估數(shù)據(jù)的價(jià)值,所以也無法給某些數(shù)據(jù)以特殊的注意力。而用戶清楚自己的數(shù)據(jù)的價(jià)值,只需付出很低的成本,比如定時(shí)做快照,就可以避免這種情況。
整體而言,掌握更多信息的,付出成本更低的角色應(yīng)該承擔(dān)更大的責(zé)任。所以云服務(wù)以及快遞這樣的服務(wù)行業(yè),賠償都是按照服務(wù)價(jià)格的倍數(shù)進(jìn)行賠償,云廠商一般承諾 100 倍的故障時(shí)間賠償,快遞一般是 2~5 倍的運(yùn)費(fèi)。但快遞有個(gè)特例,就是可以『保價(jià)』,因?yàn)橛辛恕罕r(jià)』信息,快遞公司可以對(duì)保價(jià)高的貨物付出特殊注意力,同時(shí)保價(jià)費(fèi)也相當(dāng)于一種保險(xiǎn)。云廠商其實(shí)也考慮過引入保險(xiǎn),但很多用戶不愿意在服務(wù)器資源上做投入,廠商之間還在打價(jià)格戰(zhàn)。快遞的保價(jià)費(fèi)用一般是千分之五,如果云服務(wù)也按這個(gè)比例,千萬元價(jià)值的數(shù)據(jù),保價(jià)費(fèi)幾萬元,如果愿意花這份錢到備份機(jī)制上,或者請個(gè)技術(shù)顧問,也不至于現(xiàn)在這個(gè)結(jié)果。
至于騰訊云方面是否有涉及虛假宣傳,這個(gè)需要騰訊云方面解釋了。但即便是有懲罰性賠償,也只是和服務(wù)價(jià)格的倍數(shù)相關(guān),和數(shù)據(jù)本身的價(jià)值沒關(guān)系。
通過這個(gè)事情給所有的云用戶一些建議:
1. 系統(tǒng)盡量是無狀態(tài)的,數(shù)據(jù)和系統(tǒng)要分開。多裝了幾次電腦的人都能明白把系統(tǒng)和數(shù)據(jù)弄不同的盤上。對(duì)云上的虛擬機(jī),最好能做到像 Docker 那樣,系統(tǒng)可以隨時(shí)還原而不影響應(yīng)用。
2. 盡量不要自己管理機(jī)器,能用云廠商提供的數(shù)據(jù)庫的,就別自己安裝數(shù)據(jù)庫。能用對(duì)象存儲(chǔ)這種 PaaS 服務(wù)的,就別用主機(jī)硬盤。
3. 涉及公司生死攸關(guān)的數(shù)據(jù),本地或者跨云備份。創(chuàng)業(yè)公司數(shù)據(jù)不多,實(shí)際上成本也不高。
同時(shí)也給云廠商一個(gè)建議:
出了故障,進(jìn)行公開的技術(shù)復(fù)盤不丟人,也是消滅誤解的最好方式。這方面可以多向國外同行學(xué)習(xí)。
本人是個(gè)云計(jì)算的前從業(yè)者,但和騰訊云沒有任何關(guān)系,不存在『洗地』的動(dòng)機(jī),只是從技術(shù)角度進(jìn)行分析,希望總結(jié)出一些教訓(xùn),給業(yè)界借鑒。
相關(guān)鏈接:
騰訊云給一家創(chuàng)業(yè)公司帶來的災(zāi)難(前沿?cái)?shù)控) https://weibo.com/ttarticle/p/show?id=2309404269756587862904
騰訊云的聲明?https://weibo.com/5174457807/GtlI3ngjc
靜默錯(cuò)誤:為什么看了那么多災(zāi)難,還是過不好備份這一關(guān)? https://mp.weixin.qq.com/s/ra8TP9kfsPPbY8A3Ayopjg 蓋國強(qiáng)關(guān)于靜默錯(cuò)誤的技術(shù)分析
免責(zé)聲明:文章為轉(zhuǎn)載,版權(quán)歸原作者所有。如涉及作品版權(quán)問題,請與我們聯(lián)系,我們將刪除內(nèi)容或協(xié)商版權(quán)問題。
總結(jié)
以上是生活随笔為你收集整理的关于腾讯云丢数据事件的一些看法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乞讨白发老人是银行VIP 有20万元存
- 下一篇: 平安金通卡算信用卡吗