硬盘参数你都懂吗?(上)-从案例引发的讨论
案例1:備份數據量與硬盤選型
去 年的一天,有位互聯網公司的朋友向我咨詢了一個問題:他們目前服務器大部分都是戴爾PowerEdge R510和R720xd,現在需要采購硬盤用于數據備份。每塊硬盤平均每天會寫入不到1TB的數據。這種場景下,每天都會有大量的數據寫入、讀取,對盤的 壽命影響大嗎?
由于是企業級應用,按照365天來計算,硬盤的全年的讀寫負載大約在360TB以內,我認為原廠配件中的Nearline硬盤就比較合適。那么這一結論是怎么得出呢?
案例2:視頻監控存儲可以用“云盤”嗎?
某 公司接到用戶一個視頻監控存儲的項目,一開始按照Nearline SATA企業級硬盤計算了成本,發現價格與競爭對手相比不占優勢。由于對方使用了價格相對較低的監控專用硬盤,該公司于是考慮是否可以采用也屬于企業級但 成本更低的“云盤”(即希捷Constellation CS)?
暫時先擱置這個問題,閱讀完本系列文章相信您會有比較全面的理解,再來看看看我遇到的另一個案例。
案例3:便宜的代價——云盤故障率我曾經聽說國內某互聯網公司使用過一批“云盤”,但后來遇到故障率較高?!霸票P”的價格僅比桌面硬盤稍高,在多種細分的低轉速(7200rpm及以下)企業級硬盤中具有成本優勢。那么,它的故障率在什么范圍內是正常的?
企業級vs.桌面:性能、可靠性差距
引用自一份來自Intel的文檔《Enterprise-class versus Desktopclass Hard Drives》,2008年4月
上圖是一份比較早的對比資料,不過這些年來機械硬盤技術發展不算快,所以仍有一定參考價值。其中“Enterprise”在這里代指15K高轉速企業級硬盤;而7200轉企業級硬盤衍生自“Desktop”,所以性能方面指標是接近的。
第 一項,硬盤的延時和尋道時間=平均尋道時間+平均旋轉等待,15K由于轉速高、磁頭臂移動速度快而大幅領先;而這一項又直接影響到后面的“每秒典型 I/Os”(無旋轉振動IOPS)。當然這里15K 硬盤的319不完全是機械結構的功勞,還有上面命令排隊(CQ)的效果——左邊由于SCSI/SAS協議能夠完整支持,而右邊的ATA支持有限在高并發情 況下提升少一些(注:尋道速度較快的7200轉Nearline硬盤這一數值應該比77要高)。
1 :振動對硬盤的影響及防范
15K硬盤能夠達到21 rad/sec/sec,這里的Radian應該是一種弧度單位,我不是這方面的專家,就不不展開討論了。而桌面硬盤該指標只有5-12
正如有位專家所說的,如果把硬盤固定在一個足夠穩定的基座上,它就不會受到自身以及外界產生振動的影響,能夠發揮出最佳性能和壽命。但真實環境往往不是如此,在存儲服務器/磁盤陣列機箱中通常會有多塊硬盤,同時工作時難免會產生共振現象。這里面涉及的因素主要有硬盤的轉速、數量以及箱體結構設計。
許多朋友應該都知道,磁盤陣列的空箱重量往往要比同等尺寸的服務器大不少,采用較厚的鋼板能夠“吸收”一部分振動。盡管不只一家廠商號稱可以混插不同轉速的硬盤,但實際上都不推薦這樣做。
超標的振動會影響磁頭定位,導致硬盤性能下降乃至壽命降低。抗旋轉振動大致就是伺服電路根據傳感器信息對振動進行相應的補償,10K、15K高轉速硬盤由于自身產生的振動大一些,因此在設計上“耐受力”也更強。如上表,在旋轉振動20 rad/sec/sec的條件下,15K硬盤IOPS只有少量下降;而桌面(7200轉)硬盤的性能則下降了10倍以上,可見磁頭定位困難的程度。
下面一項“雙工模式”, SAS支持全雙工,SATA是半雙工,這就在于SCSI和ATA協議之間的差別。SAS硬盤提供雙端口可同時連接到2個控制器,實現故障切換。關于可變扇區大小,我們在后文中會有討論。
2:可靠性前提條件和NL硬盤的由來
再來看看可靠性。當年的高轉速企業級硬盤的MTBF(平均無故障時間)為120萬小時左右,現在由于工藝進一步成熟,設計/制造標準普遍已達到200萬小時。而桌面硬盤還停留在70萬小時左右,沒有動力也不需要為此而增加成本。
這里容易被忽視的還有MTBF的先決條件。高轉速企業級硬盤是在45℃的環境溫度下,7x24小時100%工作負載;而桌面硬盤則是25℃環境,5x8小時10-20%工作負載。
同樣為7200轉速,但定位企業級應用的Nearline(近線)硬盤比桌面硬盤的可靠性要強不少。首先是MTBF和AFR(平均故障率),目前Nearline盤大都能達到140-200萬小時MTBF,并且這個數字是在40℃、7x24小時全年連續開機條件下得出。
注:我們會在后文中介紹MTBF與AFR的換算關系。
小知識:硬盤讀寫負載與SSD擦寫壽命關于這一點,除了硬盤是個建議值而SSD存在“硬指標”之外,一方面SSD只是擦寫次數有限而不限制讀,硬盤則不分讀寫都要考慮;另一方面,SSD壽命源自每個閃存單元的特點,在其它條件同等情況下其可寫入數據量與容量成正比;而硬盤卻不是容量越大這方面就越好,因為磁頭的老化與它讀寫數據量的相關性更強。
當然,10K/15K高轉速硬盤在質保期內沒有這些限制,所以說它們的等級不同,單盤容量、單位容量的價格也有著顯著差距。
3:環境規格——溫濕度范圍
這里引用一份HGST硬盤資料中的環境規格。其中有兩個類似梯形(右邊不是直線)嵌套在一起,大的范圍是硬盤的非操作溫濕度范圍,而里面的小塊區域則是工作溫濕度??梢钥闯?strong>在5-31℃之間可以支持90%相對濕度,而到60℃時只能支持到10%的濕度了。
只有少數的低轉速(10K以下)企業級硬盤帶有濕度傳感器,本文中包括歸檔、ENAS和Enterprise Capacity三個針對數據中心的系列。
4:MTBF不是虛標:換算出年均故障率
可用性一項,除了Video 3.5是AFR數值之外,其它列出的都是MTBF。利用MTBF來計算AFR的公式如下:
年平均故障率AFR=1 / (MTBF / 365 / 24)
MTBF看上去很高,前面表格中最長的200萬小時(8TB型號,目前希捷6TB及以下Nearline硬盤為140萬小時)折合228年,最短的75萬小時也有85年,其實它們的設計壽命都沒有那么長(通常為8-10年),從溫徹斯特硬盤發明到現在也沒有這么多年。這些可靠性不是針對單一硬盤,而是根據質保期內大量樣本計算和統計出來的。記得十多年前,我當時就職的公司有一位孫老師,她主持的10萬小時PC MTBF測試就是拿若干套設備集中進行的。根據上面公式,Enterprise Capacity的AFR計算得出0.44%,也就是說100塊盤每年平均損壞0.44塊,如果10,000塊盤就是44塊。
讀寫負載、使用率和支持盤位數量,桌面硬盤都是最低,表格中除此之外都支持7x24連續開機,并且桌面硬盤官方只建議部署1-2塊。也就是說它沒有抗旋轉振動方面的優化,如果您實際使用3塊盤以上做RAID,可能會遇到性能降低、壽命下降的問題。
Enterprise Capacity(ES)的年讀寫負載在這里最高為550TB,ENAS為300TB,余下4款都是180TB——也比桌面硬盤的55TB高不少。或許這些數字還不夠直觀,后面我們還會用它們簡單計算出平均每天、每秒的讀寫負載。
至于一個機箱中支持的硬盤數量,與另外兩項規格——旋轉振動傳感器和抗旋轉振動容忍度直接相關。比如沒 有RAFF Sensor的桌面、NAS和Video 3.5硬盤支持的系統規模都較小;監控和歸檔硬盤具備RAFF Sensor且抗振指標為5 rad/sec/sec,根據最新資料都能支持8塊以上的配置;不過它們在高振動環境下的性能表現可能不如12.5 rad/sec/sec的ENAS和Enterprise Capacity。后文中我還會列出更多的引證資料。
關于硬盤轉速,兩款7200轉/分鐘的性能相對較好;希捷目前主流的桌面硬盤應該都是7200轉,早期低轉速的Barracuda LP應該已經退出市場;Video 3.5由原來的Pipeline HD發展而來,一直是5900轉;監控盤由7200轉的SV35發展而來,不過現在4TB及以下應該都降到5900轉,5-8TB型號為7200轉。
5:視頻監控寫入負載是否會超標?
我們根據硬盤每年的讀寫負載,計算出550/300/180/55TB對應到平均每天就是1.51/0.83/0.49/0.15TB,平均每秒大約17.5/9.6/5.67/1.74MB?;氐奖疚纳掀心莻€數據備份的需求,每天寫入不到1TB的數據,使用Enterprise Capacity這個檔次的Nearline硬盤比較合適 。這里我還有一點疑問:視頻監控應用是比較典型的多流寫入,而且7x24小時連續工作,在一個系統中為了應對單盤故障RAID保護又是有必要的。首先,年負載55TB的桌面硬盤很容易超標;其次,如果有高清監控且需要保留時間較短的場合,每塊硬盤平均寫入速度超過5.67MB/s,是否將年負載180TB的監控盤換成550TB的Nearline硬盤更合適呢?
如果超出建議負載較多其故障率會高于標稱的AFR(監控盤為0.88%),而且Enterprise Capacity(ES)的AFR設計標準本身就低至0.44(8TB)~0.63%,可以降低后期維護的成本和數據丟失風險。
至于“云盤”,其平均故障率監控盤還要高些,只要不在意也可以用吧?
當然這里面還有成本的因素,Enterprise Capacity的公開報價是7200轉盤里面比較高的。由于視頻監控在國內的市場巨大,像???、大華這樣的廠商在監控硬盤上估計有較大的議價能力。
6:盤位數支持與箱體結構
要求在每個機箱支持的盤位數上,最新資料4TB及以上寫的都是“8+”,在視頻監控環境中,非RAID應用順序(I/O)使用模型下盤數不限。(取決于箱體結構)而監控硬盤在RAID應用中建議≤16盤位。究其原因,如果做了RAID,硬盤磁頭容易按照同樣的軌跡來運動。這時共振的影響應該會有所加大。
根據我的理解,ENAS系列雖然抗旋轉振動能力與Enterprise Capacity相同,但由于其主要定位中小型設備,只建議配置不超過16盤位,對機箱結構要求相應放松。經濟型Constellation CS主要針對互聯網等大型分布式環境,其中定制系統相對偏多,需要適應各種不同需求,因此抗旋轉振動也達到了12.5 rad/sec/sec。
7:不可恢復讀錯誤:
NL盤表現居中不可恢復讀錯誤可以理解為磁介質上靜態數據損壞的比率,由于這個數值比較固定,隨著單盤容量增大在一塊盤上遇到錯誤的幾率也越來越高。我們注意到,Enterprise Capacity和ENAS的該項指標比10K、15K高轉速SAS硬盤高一個數量級,但比桌面和其它“準企業級”硬盤還是要低一個數量級的。
對于監控硬盤,資料顯示目前只有8TB型號可以達到1 per 10E15。由于目前桌面硬盤的容量只達到6TB,那么8TB監控盤有可能與Enterprise Capacity出自同一平臺。
由于不可恢復讀錯誤可能在RAID Rebuild時才暴露出來,RAID卡、磁盤陣列控制器普遍設計了后臺介質掃描的功能,而有些廉價視頻監控設備使用的軟RAID就不好說了。此外,EMC等存儲廠商還使用非標準扇區(從傳統512byte增大到520byte)加入校驗實現容錯。
8NL-SAS并不只是“假SAS”硬盤主機接口方面,7200轉硬盤中只有Nearline(Enterprise Capacity)系列具備SAS版本。除了SCSI協議的完整性之外,最重要的是提供雙端口支持,在那些雙控磁盤陣列中SATA驅動器還得加個轉接板就不劃算了。而且,也只有SAS接口硬盤才能兼容520/528這些非標準扇區大小。
在質保年限上,桌面硬盤目前執行2年;Enterprise Capacity、NAS與高轉速SAS同為5年;表格里對比的其它7200轉硬盤基本上是3年。根據經驗,質保5年的硬盤設計壽命一般在8-10年,如果超出5年使用故障率會提高;同理,普通7200轉硬盤的設計壽命通常也有5年,縮短保修時間也有降低服務成本的考慮。
至此,我們看出ENAS系列應該是由Enterprise Capacity近線硬盤“降級”而來,它們之間的定位可以從開頭表格中的組件級差別上看出來。比如:兩者都使用了相對較好的高通量密度音圈磁頭,而讀寫頭和盤片ENAS為Performance而Enterprise Capacity采用High Performance等級。總之結構決定性質,只是我們在本文中并不都需要深挖。
9性能增強新技術:Flash緩存、掉電保護在硬盤上添加少量閃存的固態混合硬盤(SSHD),希捷最早推出消費級產品,并于后來引入到企業級市場(只限10K高轉速SAS盤)??陀^地說其市場空間不大,因為在混合陣列上可以做SSD+HDD之間的分層存儲,混合硬盤用于服務器也要看應用能否發揮其優勢。
不過加入Flash之后帶來了另外一個用途——掉電保護。我們知道早期硬盤上DRAM緩存中的數據斷電就會丟失,所以對數據一致性要求高的應用通常會選擇在RAID卡/陣列控制器上關閉硬盤自身的寫緩存。如今則可以利用電容和盤片旋轉的勢能將DRAM寫緩存區的數據寫到閃存中。
對于沒有Flash緩存的Enterprise Capacity,希捷在最新一代8TB型號上內置了2MB NOR閃存,用于掉電時備份寫緩存數據,因此可以打開WCE(Write Cache Enable),大幅提升隨機寫性能——IOPS 342明顯超出讀IOPS 164(隊列深度16)。
據了解,HGST企業級硬盤采用了另一種技術來達到同樣的目的——開辟一小塊磁道做為將隨機寫I/O變成順序寫入的緩沖區。
10硬盤廠商怎么說?
上表引用自希捷文檔《安全和智能的監控硬盤選擇指南》
其實希捷官方也做了監控專用硬盤和企業級3.5寸海量盤的對比。首先,監控盤“劃算”就是在談它的性價比;而性能、節電模式/響應時間、寫入負載、抗振動、SAS接口支持和質保期限上Enterprise Capacity都更勝一籌,具體的技術我們都已討論過。
11更多選購要點:系統設計和兼容性以上寫了這么多硬盤自身的特性,其實同樣的盤用在不同系統上其可靠性表現也可能會有不小的差距。
比如散熱設計,我認為正規一些的服務器、存儲廠商,測試每個盤位上承載最大功耗硬盤時的滿負載工作溫度,應該是比較基本的要求。對于一線品牌,安裝各種轉速硬盤時產生的線性、旋轉振動值是否超標,估計也在結構方面的測試項目中。用軟件仿真和實測可以做為互補,通過這些評估工作可以看出機箱、硬盤托架等有無改良空間,能夠支持的硬盤范圍等。
戴爾DSS 7000高密度存儲服務器,在4U空間內提供了90個3.5英寸熱插拔硬盤位
舉例來說,像4U 60盤位及更高密度的機箱,我看各家基本都不支持15K高轉速硬盤。如果支持2.5寸10K硬盤,在這里也是不應該按經驗“拍腦袋”決定的。
再比如前幾年,某公司進入企業存儲領域時間尚短,其硬盤故障率偏高,也是投入了不少資源來改善。
另一方面,從EMC、戴爾等廠商采購的硬盤,與渠道市場中的相同型號也有些區別。定制的Firmware版本只是一個表象,兼容性測試也是很重要的工作。因此大家最好還是按照系統廠商的建議來選購硬盤,如果一時貪圖便宜導致數據丟失就得不償失了。
我們建議,如果您沒有條件計算讀寫負載,或者不確定服務器/存儲機箱本身消減振動的能力,選擇一款規格較高、有裕量的硬盤相對比較保險。比如本文對比中的Nearline硬盤Enterprise Capacity(ES)系列或者其他品牌的同級產品。
終于到了這兩篇的結尾,我想說一句:“寫硬盤很累”,而硬盤讀寫數據也是有一個“疲勞磨損”的過程,希望能夠引起人們對可靠性的關注。盡管這是我熟悉并關注近20年的領域,為撰寫本文還是查閱、整理了大量資料??傊M麑Υ蠹矣兴鶐椭?#xff0c;同時也歡迎各路高人批評指正!
轉載于:https://www.cnblogs.com/weikunzz/p/6710572.html
總結
以上是生活随笔為你收集整理的硬盘参数你都懂吗?(上)-从案例引发的讨论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle86和92语法的连接,子查询
- 下一篇: ThinkPHP集成万象优图