日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

海量数据处理--位图(BitMap)

發布時間:2023/11/30 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 海量数据处理--位图(BitMap) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于海量數據這個詞,大家不難理解吧。主要是針對給定的數據量特別大,占用內存特別大的情況。那么和位圖有什么關系呢。看下面一個騰訊的海量數據的例子吧。

例:給40億個不重復的無符號整數,沒排過序。給一個無符號整數,如何快速判斷一個數是否在這40億個數中。

?????? 對于這道題,我們給了40億個不重復的無符號整數,一個整數是4個字節,那么就是40*4=160億個字節,大概是16G的內存。顯然在內存上時存不下的。那么我們怎么來查找呢。既然是不重復,就說明整數要么就不出現,要么就出現一次。整數的最大值是42億多,即2^32。此時我們就可以用每一位來表示這個數存在或者不存在。如果將32位為一個編號時,原本16G的數據使用位圖可以節省到500M的空間。大概我們剛剛學過哈希表,用訪問地址的方法來快速的查找出地址對應的值。這里也一樣,用到了哈希表中的新的解決海量數據的方法---位圖

那么問題來了?什么是位圖呢?

我們用每一位標志這個數存在的狀態,設為0(不存在)和1(存在);


位圖的基本結構:

是一個size_t類型的vector數組;

vector<size_t> _array;


位圖的基本函數:



對于判斷一個無符號整數,是否存在這40億個數中。

(1)需要存入這40億個數,使用Set將對應的40億個位置為1;

(2)使用Test將判斷某個位是否為0或1;

注:位圖只是考慮了整數類型

位圖的實現代碼:(vs2013)

#pragma once #include<iostream> using namespace std; #include<vector>//位圖的每一位的0,1標志這個數存在或不存在的狀態 class BitMap { public:BitMap(size_t Size = 1024){_array.resize(Size/32+1);}~BitMap(){}public://將這個數存在的狀態置為1void Set(const size_t& value){size_t index = value>>5;size_t bit = value % 32;_array[index] |= (1<<bit);}//將這個數不存在的狀態置為0void Reset(const size_t& value){size_t index = value>>5;size_t bit = value % 32;_array[index] &= (~(1<<bit));}//測試某個數是否出現過bool Test(const size_t& value){size_t index = value>>5;size_t bit = value % 32;return (_array[index] & (1<<bit));} private:vector<size_t> _array; };void BitMapTest() {BitMap bm(size_t(-1)); //64位系統下表示的整數的最大值bm.Set(10);bm.Set(100);bm.Set(20);bm.Set(500);cout<<bm.Test(10)<<endl;cout<<bm.Test(200)<<endl;cout<<bm.Test(500)<<endl;cout<<bm.Test(40)<<endl; }
運行結果:




總結

以上是生活随笔為你收集整理的海量数据处理--位图(BitMap)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。