日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

行存储 VS 列存储[通俗易懂]

發布時間:2023/12/19 综合教程 28 生活家
生活随笔 收集整理的這篇文章主要介紹了 行存储 VS 列存储[通俗易懂] 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

概述

目前大數據存儲有兩種方案可供選擇:行存儲(Row-Based)和列存儲(Column-Based)。業界對兩種存儲方案有很多爭持,集中焦點是:誰能夠更有效地處理海量數據,且兼顧安全、可靠、完整性。從目前發展情況看,關系數據庫已經不適應這種巨大的存儲量和計算要求,基本是淘汰出局。在已知的幾種大數據處理軟件中,Hadoop的HBase采用列存儲,MongoDB是文檔型的行存儲,Lexst是二進制型的行存儲。

什么是列存儲?

列式存儲(column-based)是相對于傳統關系型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表:

? Row-based storage storesatable in a sequence of rows.

? Column-based storage storesatable in a sequence of columns.

從上圖可以很清楚地看到,行式存儲下一張表的數據都是放在一起的,但列式存儲下都被分開保存了。所以它們就有了如下這些優缺點對比:

在數據寫入上的對比

1)行存儲的寫入是一次完成。如果這種寫入建立在操作系統的文件系統上,可以保證寫入過程的成功或者失敗,數據的完整性因此可以確定。

2)列存儲由于需要把一行記錄拆分成單列保存,寫入次數明顯比行存儲多(意味著磁頭調度次數多,而磁頭調度是需要時間的,一般在1ms~10ms),再加上磁頭需要在盤片上移動和定位花費的時間,實際時間消耗會更大。所以,行存儲在寫入上占有很大的優勢。

3)還有數據修改,這實際也是一次寫入過程。不同的是,數據修改是對磁盤上的記錄做刪除標記。行存儲是在指定位置寫入一次,列存儲是將磁盤定位到多個列上分別寫入,這個過程仍是行存儲的列數倍。所以,數據修改也是以行存儲占優。

在數據讀取上的對比

1)數據讀取時,行存儲通常將一行數據完全讀出,如果只需要其中幾列數據的情況,就會存在冗余列,出于縮短處理時間的考量,消除冗余列的過程通常是在內存中進行的。

2)列存儲每次讀取的數據是集合的一段或者全部,不存在冗余性問題。

3) 兩種存儲的數據分布。由于列存儲的每一列數據類型是同質的,不存在二義性問題。比如說某列數據類型為整型(int),那么它的數據集合一定是整型數據。這種情況使數據解析變得十分容易。相比之下,行存儲則要復雜得多,因為在一行記錄中保存了多種類型的數據,數據解析需要在多種數據類型之間頻繁轉換,這個操作很消耗CPU,增加了解析的時間。所以,列存儲的解析過程更有利于分析大數據。

4)從數據的壓縮以及更性能的讀取來對比

優缺點

顯而易見,兩種存儲格式都有各自的優缺點:

1)行存儲的寫入是一次性完成,消耗的時間比列存儲少,并且能夠保證數據的完整性,缺點是數據讀取過程中會產生冗余數據,如果只有少量數據,此影響可以忽略;數量大可能會影響到數據的處理效率。

2)列存儲在寫入效率、保證數據完整性上都不如行存儲,它的優勢是在讀取過程,不會產生冗余數據,這對數據完整性要求不高的大數據處理領域,比如互聯網,猶為重要。

 

兩種存儲格式各自的特性都決定了它們的使用場景。

列存儲的適用場景

1)一般來說,一個OLAP類型的查詢可能需要訪問幾百萬甚至幾十億個數據行,且該查詢往往只關心少數幾個數據列。例如,查詢今年銷量最高的前20個商品,這個查詢只關心三個數據列:時間(date)、商品(item)以及銷售量(sales amount)。商品的其他數據列,例如商品URL、商品描述、商品所屬店鋪,等等,對這個查詢都是沒有意義的。

而列式數據庫只需要讀取存儲著“時間、商品、銷量”的數據列,而行式數據庫需要讀取所有的數據列。因此,列式數據庫大大地提高了OLAP大數據量查詢的效率

OLTP OnLine TransactionProcessor 在線聯機事務處理系統(比如Mysql,Oracle等產品)

OLAP OnLine AnalaysierProcessor 在線聯機分析處理系統(比如Hive Hbase等)

2)很多列式數據庫還支持列族(column group,Bigtable系統中稱為locality group),即將多個經常一起訪問的數據列的各個值存放在一起。如果讀取的數據列屬于相同的列族,列式數據庫可以從相同的地方一次性讀取多個數據列的值,避免了多個數據列的合并。列族是一種行列混合存儲模式,這種模式能夠同時滿足OLTP和OLAP的查詢需求。

3)此外,由于同一個數據列的數據重復度很高,因此,列式數據庫壓縮時有很大的優勢。

例如,Google Bigtable列式數據庫對網頁庫壓縮可以達到15倍以上的壓縮率。另外,可以針對列式存儲做專門的索引優化。比如,性別列只有兩個值,“男”和“女”,可以對這一列建立位圖索引:

如下圖所示

“男”對應的位圖為100101,表示第1、4、6行值為“男”

“女”對應的位圖為011010,表示第2、3、5行值為“女”

如果需要查找男性或者女性的個數,只需要統計相應的位圖中1出現的次數即可。另外,建立位圖索引后0和1的重復度高,可以采用專門的編碼方式對其進行壓縮。

當然,如果每次查詢涉及的數據量較小或者大部分查詢都需要整行的數據,列式數據庫并不適用。

最后總結如下

傳統行式數據庫的特性如下:

①數據是按行存儲的。

②沒有索引的查詢使用大量I/O。比如一般的數據庫表都會建立索引,通過索引加快查詢效率。

③建立索引和物化視圖需要花費大量的時間和資源。

④面對查詢需求,數據庫必須被大量膨脹才能滿足需求。

列式數據庫的特性如下:

①數據按列存儲,即每一列單獨存放。

②數據即索引。

③只訪問查詢涉及的列,可以大量降低系統I/O。

④每一列由一個線程來處理,即查詢的并發處理性能高。

⑤數據類型一致,數據特征相似,可以高效壓縮。比如有增量壓縮、前綴壓縮算法都是基于列存儲的類型定制的,所以可以大幅度提高壓縮比,有利于存儲和網絡輸出數據帶寬的消耗。

總結

以上是生活随笔為你收集整理的行存储 VS 列存储[通俗易懂]的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。