日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cinder与ceph的区别_分布式存储基础、Ceph、cinder及华为软件定义的存储方案 -

發(fā)布時(shí)間:2025/4/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 cinder与ceph的区别_分布式存储基础、Ceph、cinder及华为软件定义的存储方案 - 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

塊存儲(chǔ)與分布式存儲(chǔ)

塊存儲(chǔ),簡(jiǎn)單來說就是提供了塊設(shè)備存儲(chǔ)的接口。通過向內(nèi)核注冊(cè)塊設(shè)備信息,在Linux中通過lsblk可以得到當(dāng)前主機(jī)上塊設(shè)備信息列表。

本文包括了單機(jī)塊存儲(chǔ)介紹、分布式存儲(chǔ)技術(shù)Ceph介紹,云中的塊存儲(chǔ)Cinder,以及華為軟件定義的存儲(chǔ)解決方案。

單機(jī)塊存儲(chǔ)

一個(gè)硬盤是一個(gè)塊設(shè)備,內(nèi)核檢測(cè)到硬盤然后在/dev/下會(huì)看到/dev/sda/。因?yàn)樾枰靡粋€(gè)硬盤來得到不同的分區(qū)來做不同的事,通過fdisk工具得到/dev/sda1, /dev/sda2等,這種方式通過直接寫入分區(qū)表來規(guī)定和切分硬盤,是最死板的分區(qū)方式。

分布式塊存儲(chǔ)

在面對(duì)極具彈性的存儲(chǔ)需求和性能要求下,單機(jī)或者獨(dú)立的SAN越來越不能滿足企業(yè)的需要。如同數(shù)據(jù)庫系統(tǒng)一樣,塊存儲(chǔ)在scale up的瓶頸下也面臨著scale out的需要。

分布式塊存儲(chǔ)系統(tǒng)具有以下特性:

分布式塊存儲(chǔ)可以為任何物理機(jī)或者虛擬機(jī)提供持久化的塊存儲(chǔ)設(shè)備; 分布式塊存儲(chǔ)系統(tǒng)管理塊設(shè)備的創(chuàng)建、刪除和attach/detach;

分布式塊存儲(chǔ)支持強(qiáng)大的快照功能,快照可以用來恢復(fù)或者創(chuàng)建新的塊設(shè)備; 分布式存儲(chǔ)系統(tǒng)能夠提供不同IO性能要求的塊設(shè)備。

現(xiàn)下主流的分布式塊存儲(chǔ)有Ceph、AMS ESB、阿里云磁盤與sheepdog等。

1 Ceph

1.1 Ceph概述

Ceph目前是OpenStack支持的開源塊存儲(chǔ)實(shí)現(xiàn)系統(tǒng)(即Cinder項(xiàng)目backend driver之一) 。Ceph是一種統(tǒng)一的、分布式的存儲(chǔ)系統(tǒng)。“統(tǒng)一的”意味著Ceph可以一套存儲(chǔ)系統(tǒng)同時(shí)提供對(duì)象存儲(chǔ)、塊存儲(chǔ)和文件系統(tǒng)存儲(chǔ)三種功能,以便在滿足不同應(yīng)用需求的前提下簡(jiǎn)化部署

和運(yùn)維。“分布式”在Ceph系統(tǒng)中則意味著真正的無中心結(jié)構(gòu)和沒有理論上限的系統(tǒng)規(guī)模可擴(kuò)展性。

Ceph具有很好的性能、可靠性和可擴(kuò)展性。其核心設(shè)計(jì)思想,概括為八個(gè)字—“無需查表,算算就好”。

1.2 Ceph系統(tǒng)的層次結(jié)構(gòu)

自下向上,可以將Ceph系統(tǒng)分為四個(gè)層次:

基礎(chǔ)存儲(chǔ)系統(tǒng)RADOS(Reliable, Autonomic, Distributed Object Store,即可靠的、自動(dòng)化的、分布式的對(duì)象存儲(chǔ));

基礎(chǔ)庫LIBRADOS;

高層應(yīng)用接口:包括了三個(gè)部分:RADOS GW(RADOS Gateway)、 RBD(Reliable Block Device)和Ceph FS(Ceph File System)。

RADOS由兩個(gè)組件組成:一種是數(shù)量很多、負(fù)責(zé)完成數(shù)據(jù)存儲(chǔ)和維護(hù)功能的OSD( Object Storage Device)。另一種則是若干個(gè)負(fù)責(zé)完成系統(tǒng)狀態(tài)檢測(cè)和維護(hù)的Monitor。OSD和monitor之間相互傳輸節(jié)點(diǎn)狀態(tài)信息,共同得出系統(tǒng)的總體工作狀態(tài),并形成一個(gè)全局系統(tǒng)狀態(tài)記錄數(shù)據(jù)結(jié)構(gòu),即所謂的cluster map。這個(gè)數(shù)據(jù)結(jié)構(gòu)與RADOS提供的特定算法相配合,便實(shí)現(xiàn)Ceph“無需查表,算算就好”的核心機(jī)制以及若干優(yōu)秀特性。

OSD可以被抽象為兩個(gè)組成部分,即系統(tǒng)部分和守護(hù)進(jìn)程(OSD deamon)部分。OSD的系統(tǒng)部分本質(zhì)上就是一臺(tái)安裝了操作系統(tǒng)和文件系統(tǒng)的計(jì)算機(jī),其硬件部分至少包括一個(gè)單核的處理器、一定數(shù)量的內(nèi)存、一塊硬盤以及一張網(wǎng)卡。在上述系統(tǒng)平臺(tái)上,每個(gè)OSD

擁有一個(gè)自己的OSD deamon。這個(gè)deamon負(fù)責(zé)完成OSD的所有邏輯功能,包括與monitor和其他OSD(事實(shí)上是其他OSD的deamon)通信以維護(hù)更新系統(tǒng)狀態(tài),與其他OSD共同完成數(shù)據(jù)的存儲(chǔ)和維護(hù),與client通信完成各種數(shù)據(jù)對(duì)象操作等等。

1.3 Ceph中的數(shù)據(jù)尋址

用戶存儲(chǔ)數(shù)據(jù)時(shí)的數(shù)據(jù)路由過程如下圖所示:

首先明確幾個(gè)概念:

File ——用戶需要存儲(chǔ)或者訪問的文件。對(duì)于一個(gè)基于Ceph開發(fā)的對(duì)象存儲(chǔ)應(yīng)用而言,這個(gè)file也就對(duì)應(yīng)于應(yīng)用中的“對(duì)象”,也就是用戶直接操作的“對(duì)象”。

Ojbect——RADOS所看到的“對(duì)象”。Object與上面提到的file的區(qū)別是,object的最大size由RADOS限定(通常為2MB或4MB),以便實(shí)現(xiàn)底層存儲(chǔ)的組織管理。因此,當(dāng)上層應(yīng)用向RADOS存入size很大的file時(shí),需要將file切分成統(tǒng)一大小的一系列object(最后一個(gè)的大小可以不同)進(jìn)行存儲(chǔ)。

PG(Placement Group)——顧名思義,PG的用途是對(duì)object的存儲(chǔ)進(jìn)行組織和位置映射。具體而言,一個(gè)PG負(fù)責(zé)組織若干個(gè)object(可以為數(shù)千個(gè)甚至更多),但一個(gè)object只能被映射到一個(gè)PG中,即,PG和object之間是“一對(duì)多”映射關(guān)系。同時(shí),一個(gè)PG會(huì)被映射到n個(gè)OSD上,而每個(gè)OSD上都會(huì)承載大量的PG,即,PG和OSD之間是“多對(duì)多”映射關(guān)系。在實(shí)踐當(dāng)中,n至少為2,如果用于生產(chǎn)環(huán)境,則至少為3。一個(gè)OSD上的PG則可達(dá)到數(shù)百個(gè)。事實(shí)上,PG數(shù)量的設(shè)置牽扯到數(shù)據(jù)分布的均勻性問題。

OSD——即object storage device。 數(shù)據(jù)路由的過程需要經(jīng)過幾次尋址:

? File -> object映射。這次映射的目的是,將用戶要操作的file,映射為RADOS能夠處理的object。其映射十分簡(jiǎn)單,本質(zhì)上就是按照object的最大size對(duì)file進(jìn)行切分。這種切分的好處有二:一是讓大小不限的file變成最大size一致、可以被RADOS高效管理的object;

二是讓對(duì)單一file實(shí)施的串行處理變?yōu)閷?duì)多個(gè)object實(shí)施的并行化處理。

? Object -> PG映射。在file被映射為一個(gè)或多個(gè)object之后,就需要將每個(gè)object獨(dú)立地映射到一個(gè)PG中去。計(jì)算公式: hash(oid) & mask ->pgid。根據(jù)RADOS的設(shè)計(jì),給定PG的總數(shù)為m(m應(yīng)該為2的整數(shù)冪),則mask的值為m-1。因此,哈希值計(jì)算和按位與操作的整體結(jié)果事實(shí)上是從所有m個(gè)PG中近似均勻地隨機(jī)選擇一個(gè)。基于這一機(jī)制,當(dāng)有大量object和大量PG時(shí),RADOS能夠保證object和PG之間的近似均勻映射。

? PG -> OSD映射。第三次映射就是將作為object的邏輯組織單元的PG映射到數(shù)據(jù)的實(shí)際存儲(chǔ)單元OSD。如圖所示,RADOS采用一個(gè)名為CRUSH的算法,將pgid代入其中,然后得到一組共n個(gè)OSD。這n個(gè)OSD即共同負(fù)責(zé)存儲(chǔ)和維護(hù)一個(gè)PG中的所有object。前已述及,n的數(shù)值可以根據(jù)實(shí)際應(yīng)用中對(duì)于可靠性的需求而配置,在生產(chǎn)環(huán)境下通常為3。具體到每個(gè)OSD,則由其上運(yùn)行的OSD deamon負(fù)責(zé)執(zhí)行映射到本地的object在本地文件系統(tǒng)中的存儲(chǔ)、訪問、元數(shù)據(jù)維護(hù)等操作。和“object->OSD”映射中采用的哈希算法不同,CRUSH算法的結(jié)果不是絕對(duì)不變的,而是受到當(dāng)前系統(tǒng)的狀態(tài)(cluster map)和存儲(chǔ)配置策略的影響。故而當(dāng)系統(tǒng)中的OSD狀態(tài)、數(shù)量發(fā)生變化時(shí),Cluster map發(fā)生變化,映射的結(jié)果也就發(fā)生了變化。

1.4 寫數(shù)據(jù)的流程

當(dāng)某個(gè)client需要向Ceph集群寫入一個(gè)file時(shí),首先需要在本地完成尋址流程,將file變?yōu)橐粋€(gè)object,然后找出存儲(chǔ)該object的一組三個(gè)OSD。

找出三個(gè)OSD后,client將直接和Primary OSD通信,發(fā)起寫入操作。

Primary OSD收到請(qǐng)求后,分別向Secondary OSD和Tertiary OSD發(fā)起寫入操作。當(dāng)Secondary OSD和Tertiary OSD各自完成寫入操作后,將分別向Primary OSD發(fā)送確認(rèn)信息;

當(dāng)Primary OSD確信其他兩個(gè)OSD的寫入完成后,則自己。也完成數(shù)據(jù)寫入,并向client確認(rèn)object寫入操作完成。

1.5 集群維護(hù)

由若干個(gè)monitor共同負(fù)責(zé)整個(gè)Ceph集群中所有OSD狀態(tài)的發(fā)現(xiàn)與記錄,并且共同形成cluster map的master版本,然后擴(kuò)散至全體OSD以及client。OSD使用cluster map進(jìn)行數(shù)據(jù)的維護(hù),而client使用cluster map進(jìn)行數(shù)據(jù)的尋址。

monitor并不主動(dòng)輪詢各個(gè)OSD的當(dāng)前狀態(tài)。正相反,OSD需要向monitor上報(bào)狀態(tài)信息。常見的上報(bào)有兩種情況:一是新的OSD被加入集群,二是某個(gè)OSD發(fā)現(xiàn)自身或者其他OSD發(fā)生異常。在收到這些上報(bào)信息后,monitor將更新cluster map信息并加以擴(kuò)散。

? 新增一個(gè)OSD時(shí)

首先根據(jù)配置信息與monitor通信,monitor將其加入cluster map,并設(shè)置為up且out狀態(tài),再將最新版本的cluster map發(fā)給這個(gè)新OSD。收到monitor發(fā)過來的cluster map之后,這個(gè)新OSD計(jì)算出自己所承載的PG以及和自己承載同一個(gè)PG的其他OSD。然后與這些OSD取得聯(lián)系。如果這個(gè)PG目前處于降級(jí)狀態(tài)(即承載該P(yáng)G的OSD個(gè)數(shù)少于正常值),則其他OSD將把這個(gè)PG內(nèi)的所有對(duì)象和元數(shù)據(jù)賦值給新OSD。數(shù)據(jù)復(fù)制完成后,新OSD被置為up且in狀態(tài),cluster map也更新。

? 自動(dòng)化故障恢復(fù)

當(dāng)其中一個(gè)OSD發(fā)生故障時(shí),如果其PG目前一切正常,則這個(gè)新OSD將替換掉故障OSD(PG內(nèi)將重新選出Primary OSD),并承擔(dān)其數(shù)據(jù)。在數(shù)據(jù)復(fù)制完成后,新OSD被置為up且in狀態(tài),而被替換的OSD將推出該P(yáng)G。而cluster map內(nèi)容也將據(jù)此更新。

? 自動(dòng)化的故障探測(cè)過程

如果一個(gè)OSD發(fā)現(xiàn)和自己共同承擔(dān)一個(gè)PG的另一個(gè)OSD無法聯(lián)通,則會(huì)將這一情況上報(bào)monitor。此外,如果一個(gè)OSD deamon發(fā)現(xiàn)自身工作狀態(tài)異常,也將把異常情況主動(dòng)上報(bào)給monitor。此時(shí),monitor將把出現(xiàn)問題的OSD的狀態(tài)設(shè)置為down且in。如果超過

總結(jié)

以上是生活随笔為你收集整理的cinder与ceph的区别_分布式存储基础、Ceph、cinder及华为软件定义的存储方案 -的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。