當前位置：首頁 >

万变不离其宗之海量数据下的算法问题处理思路

發布時間：2025/3/15 29 豆豆

生活随笔收集整理的這篇文章主要介紹了万变不离其宗之海量数据下的算法问题处理思路小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文介紹萬變不離其宗之海量數據下的算法問題處理思路

萬變不離其宗之海量數據下的算法問題處理思路

海量數據下的算法問題

本文開篇就引入了一個很重要的問題，海量數據處理下的算法問題。這個不管是在求職還是在以后的工作中都是必須會碰到的問題。因此，我在這里單獨開文一篇為大家講解這一系列問題的緣起緣消。讓大家不至于在海量數據中迷失自我。

既然是萬變不離其宗，那么肯定所有的問題都可以追本溯源，返璞歸真為幾類具有共同特性的問題。這里，我們先列舉出來，所有的海量數據算法問題，其實都可以被歸納成為這么幾類：?top K問題,?重復問題?,?排序問題。這三大問題，來頭可不一般，你能遇到的所有大數據海量數據問題，不外呼這三類。

先祭大殺器

在正式記錄這三大問題之前，我必須得有必要祭出幾個大殺器，這些方法在處理大數據問題上是通用的，也就是說這些方法都是最基本的套路，但是我盡量不研究的非常復雜。

位圖法

咋一看，這個名字很簡單，但是實際上可不是這樣的，這個方法的思想非常牛逼。我們從這么一個問題來看，假如有2.5億個int的整數，給你一個整數，讓你來判斷一下，這個整數是否在這2.5億個整數之中。要求速度盡可能的快，你會怎么辦呢？
很多人會說，我會非常機智的遍歷一遍這些整數，如果沒有一樣的就不存在如果有就存在。沒錯，這沒有錯，但是假如又來了一個整數，又讓你判斷有沒有在里面，這個時候你又得遍歷一遍。這是非常不科學的做法。這個時候我們的位圖法就牛逼的出現了。
位圖法比較適合于判斷是否存在這樣的問題，元素的狀態比較少，元素的個數比較多的情況之下。那么具體咋么做呢，這樣，非常簡單明了就是，2.5億個整數里面，我維護一個長度等于最大整數值得字符串，每個整數是否存在我就在該整數對應的位置置為1，比如，有{2, 4, 5, 6, 67, 5}這么幾個整數，我維護一個 00…0000 67位的字符串。但是，如果你不知道整數的最大值，你至少需要一個長度2^32的字符串，因為整數的最大值就是2^32，(int占4個字節，因此是32位)，那這就最少是512M內存，從char的長度算內存會算吧，直接*8/2^20 就是M的單位。那這么說來就可以理解位圖法了。

top K問題

首先讓我們來研究一下top k問題。殺器已經寄出，接下來我記錄幾個經典的大數據問題：

有1000萬個身份證號以及他們對應的數據，身份證號可能重復，找出出現次數最多的身份證號。

有10000000個記錄，這些查詢串的重復度比較高，如果除去重復后，不超過3000000個。一個查詢串的重復度越高，說明查詢它的用戶越多，也就是越熱門。請統計最熱門的10個查詢串，要求使用的內存不能超過1GB。

有10個文件，每個文件1GB，每個文件的每一行存放的都是用戶的query，每個文件的query都可能重復。按照query的頻度排序。

有一個1GB大小的文件，里面的每一行是一個詞，詞的大小不超過16個字節，內存限制大小是1MB。返回頻數最高的100個詞。

提取某日訪問網站次數最多的那個IP。

10億個整數找出重復次數最多的100個整數。

搜索的輸入信息是一個字符串，統計300萬條輸入信息中最熱門的前10條，每次輸入的一個字符串為不超過255B，內存使用只有1GB。

這些問題怎么解答，我們一起來慢慢思考吧，先放在這里。

重復問題

重復問題包括去重，尋找共同的重復元素，等都是這個問題。同樣的，這里也先把問題歸并出來：

例如，已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。

10億個正整數，只有1個數重復出現過，要求在O(n)的時間里找出這個數。

給定a、b兩個文件，各存放50億個url，每個url各占用64B，要求在O(n)的時間里找出a、b文件共同的url。

給40億個不重復的unsigned int的整數，沒排過序的，然后再給一個數，如何快速判斷這個數是否在那40億個數當中？

在這些問題里面，最簡單最重要的就是去重問題，我吃完飯之后繼續寫。比如給你一個wifi密碼字典，里面重復的密碼會大大增加無用功，你得去掉，但是一個字典少則上萬多則上千億，非常大的數據，你怎么去重？
終于吃完飯了，我們繼續。
剛才看到了一個看上去十分可行的方法：

如果數據無法一次性讀入內存，那么可以，首先設定一個hash函數，把每一行的字符串映射成為一個0-n（什么函數這么牛逼請告訴我），然后把文件分拆成為比如500個小文件，那么重復的字符串一定在相同的小包中，這個時候就可以對每個小包進行去重，方法很簡單，一行命令sort foo1.txt|unique ，對所有的小包去重之后再合并起來就可以得到一個大文件啦。（話說把所有小文件合并到大文件有簡單的可行方案否？）

總的來說，解決海量數據中的重復問題無外乎兩大法寶：

分治法，hash到小文件，化整為零，各個擊破；

位圖法，這個貌似只適合于整數場合？比如電話號碼，身份證號之類的？

BloomFilter算法這里就不一一介紹了，這個算法比較高端。

那最后看來，比較可行的還是分而治之比較靠譜一些。

排序問題

最后是海量數據的排序問題。這個我就不一一說了。。。
下一個博客，我將會實際的實戰一下，用這些方法處理實際的大數據問題。

總結

以上是生活随笔為你收集整理的万变不离其宗之海量数据下的算法问题处理思路的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PaddlePaddle, Tensor
下一篇： GAN——UNIT简单梳理