分布式计算、云计算与大数据第十章
存儲基本知識
DAS分析
??直接連接存儲:存儲設備是通過電纜(通常是SCSI接口電纜)直接連到服務器的。 I/O請求直接發送到存儲設備
優勢:連接簡單
集成在服務器內部;點到點的連接;距離短;
安裝技術要求不高
低成本需求
SCSI總線成本低
較好的性能
通用的解決方案
DAS的投資低,絕大多數應用可以接受
劣勢:有限的擴展性
SCSI總線的距離最大25米;最多15個設備
專屬的連接
空間資源無法與其他服務器共享
備份和數據保護
備份到與服務器直連的磁帶設備上
硬件失敗將導致更高的恢復成本
TCO(總擁有成本高)
存儲容量的加大導致管理成本上升
存儲使用效率低
NAS
??網絡 連接/附加/附屬 存儲:存儲設備連接到現有的網絡上,提供數據和文件服務,應用服務器直接把File I/O請求通過LAN傳給遠端NAS中的文件系統,NAS中的文件系統發起Block I/O到與NAS直連的磁盤。主要面向高效的文件共享任務,適用于那些需要網絡進行大容量文件數據傳輸的場合。
優點:
資源共享
構架于IP網絡之上
部署簡單
較好的擴展性
異構環境下的文件共享
易于管理
備份方案簡單
低的TCO
劣勢:
擴展性有限
帶寬瓶頸,一些應用會占用帶寬資源
不適應某些數據庫的應用
SAN
??存儲區域網絡:它是一個用在服務器和存儲資源之間的、專用的、高性能的網絡體系。它為實現大量原始數據的傳輸而進行了專門的優化。
優勢:
實現存儲介質的共享
非常好的擴展性
易于數據備份和恢復
實現備份磁帶共享
LAN Free和Server Free
高性能
支持服務器群集技術
容災手段
低的TCO
劣勢:
成本較高
需要專用的連接設備如FC交換機以及HBA
SAN孤島
技術較為復雜
需要專業的技術人員維護
RAID 級別比較
熱備與重構
在線操作特性
系統中需設置一個熱添加的備份盤或用一個新的替代磁盤替代故障磁盤
當滿足以下條件時開始數據自動重構
1、有一個熱備份盤存在獨立于故障磁盤的
2、 所有磁盤都配置為冗余陣列(RAID1,3,5,10)
所有的操作都是在不中斷系統操作的情況下進行的
邏輯卷快照(snapshot)
用途(利用少量存儲空間保存原始數據的備份)
文件、邏輯卷恢復
備份、測試、數據分析等
基本概念:
Base Volume :快照源卷
Repository Volume :快照倉儲卷,保存快照源卷在快照過程中被修改以前的數據
Snapshot Volume :快照卷
某一個時間點的邏輯卷映像:
邏輯上相當于整個Base Volume的拷貝
可將Sanpshot Volume分配給任何一臺主機
Snapshot Volume可讀取、寫入或拷貝
存儲空間需求
需要相當于Base Volume 20%的額外空間
云存儲概念與技術原理
??目前業界兩種主流云存儲技術解決方案:基于虛擬化技術和分布式存儲。
分布式存儲:
??分布式塊存儲
??分布式文件存儲
??分布式對象存儲
??分布式表存儲
存儲虛擬化:
??基于主機的存儲虛擬化
??基于網絡的存儲虛擬化
??基于存儲設備的存儲虛擬化
塊存儲技術
分布式文件存儲
??文件存儲以標準文件系統接口形式向應用系統提供海量非結構化數據存儲空間。分布式文件系統把分布在局域網內各個計算機上的共享文件夾集合成一個虛擬共享文件夾,將整個分布式文件資源以統一的試圖呈現給用戶。 它對用戶和應用程序屏蔽各個節點計算機底層文件系統的差異,提供用戶方便的管理資源的手段或統一的訪問接口。
??分布式文件系統的出現很好的滿足互聯網信息不斷增長的需求,并為上層構建實時性更高,更易使用的結構化存儲系統提供有效的數據管理的支持。在催生了許多分布式數據庫產品的同時,也促使分布式存儲技術不斷的發展和成熟。
對象存儲技術
??對象存儲為海量非結構化數據提供Key-Value這種通過鍵-值查找數據文件的存儲模式,提供了基于對象的訪問接口,有效地合并了NAS和SAN的存儲結構優勢,通過高層次的抽象具有NAS的跨平臺共享數據和基于策略的安全訪問優點,支持直接訪問具有SAN的高性能和交換網絡結構的可伸縮性。
特點:訪問接口簡單,提供REST/SOAP接口
協議開銷高、響應延遲較文件存儲長
引入對象元數據描述對象特征
應用系統跟存儲系統的耦合程度松散
支持一次寫多次讀
表存儲技術
??表存儲系統用來存儲和管理結構化/半結構化數據,向應用系統提供高可擴展的表存儲空間,包括交易型數據庫和分析型數據庫。
??NoSQL是設計滿足超大規模數據存儲需求的分布式存儲系統,沒有固定的Schema,不支持join操作,通過“向外擴展”的方式提高系統負載能力。
分布式表存儲
表存儲適應場景
各種存儲技術對比
云存儲產品與系統
主流公有云云存儲產品分析
主流私有云云存儲產品分析
對象存儲技術
傳統塊存儲與對象存儲
??在傳統的存儲系統中用文件或塊作為基本的存儲單位,塊設備要記錄每個存儲數據塊在設備上的位置;而在對象存儲系統中,對象是數據存儲的基本單元,Object維護自己的屬性,從而簡化了存儲系統的管理任務,增加了靈活性,在存儲設備中,所有對象都有一個對象標識,通過對象標識OSD命令訪問該對象。
對象的組成
??對象是系統中數據存儲的基本單位,每個Object是數據和數據屬性集的綜合體,數據屬性可以根據應用的需求進行設置,包括數據分布、服務質量等。
??對象包含了文件數據以及相關的屬性信息,可以進行自我管理 。
基本存儲單元
名字空間:對象ID
數據
元數據
元數據類似于inode,描述了對象在磁盤上的塊分布
屬性
根據需要而定義
E.g. 多媒體對象的延遲和吞吐請求
OSD
??每個OSD都是一個智能設備,具有自己的存儲介質、處理器、內存以及網絡系統等,負責管理本地的Object,是對象存儲系統的核心。OSD同塊設備的不同不在于存儲介質,而在于兩者提供的訪問接口。
??OSD的主要功能包括數據存儲和安全訪問。目前國際上通常采用刀片式結構實現對象存儲設備。
OSD的主要功能
OSD提供三個主要功能:
(1) 數據存儲。OSD管理對象數據,并將它們放置在標準的磁盤系統上,OSD不提供塊接口訪問方式,Client請求數據時用對象ID、偏移進行數據讀寫。
(2) 智能分布。OSD用其自身的CPU和內存優化數據分布,并支持數據的預取。由于OSD可以智能地支持對象的預取,從而可以優化磁盤的性能。
(3) 每個對象元數據的管理。OSD管理存儲在其上對象的元數據,該元數據與傳統的inode元數據相似,通常包括對象的數據塊和對象的長度。而在傳統的NAS系統中,這些元數據是由文件服務器維護的,對象存儲架構將系統中主要的元數據管理工作由OSD來完成,降低了Client的開銷
文件系統
??文件系統對用戶的文件操作進行解釋,并在元數據服務器和OSD間通信,完成所請求的操作。
??現有的應用對數據的訪問大部分都是通過POSIX文件方式進行的,對象存儲系統提供給用戶的也是標準的POSIX文件訪問接口。
??接口具有和通用文件系統相同的訪問方式,同時為了提高性能,也具有對數據的Cache功能和文件的條帶功能。
??同時,文件系統必須維護不同客戶端上Cache的一致性,保證文件系統的數據一致
元數據服務器
MDS控制Client與OSD對象的交互,主要提供以下幾個功能:
(1) 對象存儲訪問:MDS構造、管理描述每個文件分布的視圖,允許Client直接訪問對象。MDS為Client提供訪問該文件所含對象的能力,OSD在接收到每個請求時將先驗證該能力,然后才可以訪問。
(2) 文件和目錄訪問管理:MDS在存儲系統上構建一個文件結構,包括限額控制、目錄和文件的創建和刪除、訪問控制等。
(3) Client Cache一致性:為了提高Client性能,在對象存儲系統設計時通常支持Client方的Cache。由于引入Client方的Cache,帶來了Cache一致性問題,MDS支持基于Client的文件Cache,當Cache的文件發生改變時,將通知Client刷新Cache,從而防止Cache不一致引發的問題。
存儲技術趨勢
數據優化技術將成為熱點
存儲虛擬化
??存儲虛擬化是目前以及未來的存儲技術熱點,它其實并不算是什么全新的概念,RAID、LVM、SWAP、VM、文件系統等這些都歸屬于其范疇。
??存儲的虛擬化技術有很多優點,比如提高存儲利用效率和性能,簡化存儲管理復雜性,綠色節省,降低運營成本等。
??目前最新的存儲虛擬化技術有自動分級存儲(HSM)、自動精減配置(Thin provision)、云存儲(Cloud storage)、分布式文件系統(Distributed file system),另外還有諸如動態內存分區、SAN和NAS虛擬化。
??虛擬化可以柔性地解決不斷出現的新存儲需求問題,因此我們可以斷言存儲虛擬化仍將是未來存儲的發展趨勢之一
固態硬盤
??固態硬盤(SSD, solid state disk)是目前倍受存儲界廣泛關注的存儲新技術,它被看作是一種革命性的存儲技術,可能會給存儲行業甚至計算機體系結構帶來深刻變革。
??SSD與傳統磁盤不同,它是一種電子器件而非物理機械裝置,它具有體積小、能耗小、搞干擾能力強、尋址時間極小(甚至可以忽略不計)、IOPS高、I/O性能高等特點。
??對于存儲系統來說,SSD最大突破是大幅提高了IOPS,摩爾定理的效力再次顯現,通過簡單地用SSD替換傳統磁盤,就可能可以達到和超越綜合運用緩存、預讀、高并發、數據局部性、磁盤調度策略等軟件技術的效用。
??SSD已經開始被廣泛接受并應用,當前主要的限制因素包括價格、使用壽命、寫性能抖動等。從最近兩年的發展情況來看,這些問題都在不斷地改善和解決,SSD的發展和廣泛應用將勢不可擋。
重復數據刪除
??重復數據刪除(Deduplication)是一種目前主流且非常熱門的存儲技術,可對存儲容量進行有效優化。它通過刪除數據集中重復的數據,只保留其中一份,從而消除冗余數據。
??Dedupe技術可以幫助眾多應用降低數據存儲量,節省網絡帶寬,提高存儲效率、減小備份窗口,節省成本。Dedupe技術目前大量應用于數據備份與歸檔系統,因為對數據進行多次備份后,存在大量重復數據。事實上,它也可以用于很多場合,包括在線數據、近線數據、離線數據存儲系統。
??信息呈現的指數級增長方式給存儲容量帶來巨大的壓力,而dedupe是最為行之有效的解決方案,因此固然其有一定的不足,它大行其道的技術趨勢無法改變。更低碰撞概率的hash函數、多核、GPU、SSD等,這些技術推動dedupe走向成熟,由作為一種產品而轉向作為一種功能,逐漸應用到近線和在線存儲系統。
SOHO存儲
??SOHO(Small office, home office)存儲即家庭或個人存儲。現代家庭中擁有多臺PC、筆記本電腦、上網本、平板電腦、智能手機,這種情況業已非常普遍,這些設備將組成家庭網絡。
??SOHO存儲的數據主要來自個人文檔、工作文檔、軟件與程序源碼、電影與音樂、自拍視頻與照片,部分數據需要在不同設備之間共享與同步,重要數據需要備份或者在不同設備之間復制多份,需要在多臺設備之間協同搜索文件,需要多設備共享的存儲空間等
??SOHO存儲目前大致有兩種思路,一是home NAS微型存儲裝置,提供文件級的集中共享存儲空間,并在NAS提供數據備份和復制、數據管理、高級文件檢索、多種數據訪問協議和接口等功能。二是p2p存儲系統,利用軟件系統將各個設備的存儲空間統一起來,提供一個虛擬的集中共享存儲空間,同樣可以提供home NAS上的所有功能。
ROBO存儲
??ROBO(Remote office, branch office)存儲即企業遠程或分支機構存儲。
??大的公司或組織機構會有多個子公司或分支機構組成,物理分布在世界上不同的城市。ROBO存儲正是為了應對這種基于互聯網的協作式工作模式而產生的。ROBO存儲的需求主要集中在數據同步、共享、分發、協作,傳統的上傳/下載模式文件服務難以滿足這種需求,天然地需要基于互聯網的廣域分布式文件系統。
??針對ROBO存儲,通常在公司總部部署集中式存儲系統保存所有的數據,在每個子公司部署較小的存儲節點,然后通過高速網絡互聯,并提供高效的數據同步、分發、數據緩存等機制,盡量減少數據通信量以提高性能和實時性。目前ROBO存儲似乎還沒有成熟的解決方案。
語義化檢索
??數據檢索目前主要分為兩類,一是基于文件名,二是基于文件內容。主流文件系統的數據檢索都是基于文件名進行的,桌面搜索引擎則綜合文件名和文件內容進行檢索,前者遍歷文件系統元數據,后者需要解析文件內容,它們都是通過關鍵字匹配來實現檢索。顯然,這兩類檢索的語義是非常有限的,與人類思維方式有著很大的區別。
??存儲系統完全可以實現語義化的檢索,通過文件屬性和關系來檢索文件,并用關系網絡(類似社會化網絡)來表示檢索結果。這種方式語義上更加豐富,檢索結果更加精確,也更加符合人類的思維方式。
??面對海量的數據,精確、高效地檢索出自己需要的數據是第一步,語義化檢索符合存儲的技術發展趨勢。
存儲智能化
??人工智能是計算機的發展方向,這是個理想而艱巨的目標。對于存儲系統來說,智能化代表著自動化、自適應、兼容性、自治管理、彈性應用,通過對系統的監控、分析和挖掘來發現數據應用的特點和使用者的行為模式并動態調整配置,從而達到最佳的運行狀態。
??存儲智能化可以分別在存儲系統棧中的不同層次實現,包括磁盤、RAID、卷管理器、文件系統、NAS系統、應用系統,從而形成系統的存儲智能化。
??雖然我們已經取得了一定的成果,但離真正的目標差距還很大,存儲學術界和業界都在這此而努力。智慧的存儲,讓數據在整個信息生命周期內有序、高效、自治,存儲效用最大化、簡化管理、減少人工干預,這應該是存儲的大趨勢。
總結
以上是生活随笔為你收集整理的分布式计算、云计算与大数据第十章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.0jpa 2.0_JPA 2.1类型
- 下一篇: 就能让电脑连接网络电脑如何设网络连接