當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数

發布時間：2025/3/21 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源：公眾號【苦逼的碼農】

這幾天小秋去面試了，不過最近小秋學習了不少和位算法相關文章，例如：

【算法技巧】位運算裝逼指南

對于算法題還是有點信心的，，，，于是，發現了如下對話。

20億級別

面試官：如果我給你 2GB 的內存，并且給你 20 億個 int 型整數，讓你來找出次數出現最多的數，你會怎么做？

小秋：（嗯？怎么感覺和之前的那道判斷一個數是否出現在這 40 億個整數中有點一樣？可是，如果還是采用 bitmap 算法的話，好像無法統計一個數出現的次數，只能判斷一個數是否存在），我可以采用哈希表來統計，把這個數作為 key，把這個數出現的次數作為 value，之后我再遍歷哈希表哪個數出現最多的次數最多就可以了。

面試官：你可以算下你這個方法需要花費多少內存嗎？

小秋：key 和 value 都是 int 型整數，一個 int 型占用 4B 的內存，所以哈希表的一條記錄需要占用 8B，最壞的情況下，這 20 億個數都是不同的數，大概會占用 16GB 的內存。

面試官:你的分析是對的，然而我給你的只有 2GB 內存。

小秋：（感覺這道題有點相似，不過不知為啥，沒啥思路，這下涼涼），目前沒有更好的方法。

面試官：按照你那個方法的話，最多只能記錄大概 2 億多條不同的記錄，2 億多條不同的記錄，大概是 1.6GB 的內存。

小秋：（嗯？面試官說這話是在提示我？）我有點思路了，我可以把這 20 億個數存放在不同的文件，然后再來篩選。

面試題：可以具體說說嗎？

小秋：剛才你說，我的那個方法，最多只能記錄大概 2 億多條的不同記錄，那么我可以把這 20 億個數映射到不同的文件中去，例如，數值在 0 至 2億之間的存放在文件1中，數值在2億至4億之間的存放在文件2中….，由于 int 型整數大概有 42 億個不同的數，所以我可以把他們映射到 21 個文件中去，如圖

顯然，相同的數一定會在同一個文件中，我們這個時候就可以用我的那個方法，統計每個文件中出現次數最多的數，然后再從這些數中再次選出最多的數，就可以了。

面試官：嗯，這個方法確實不錯，不過，如果我給的這 20 億個數數值比較集中的話，例如都處于 1~20000000 之間，那么你都會把他們全部映射到同一個文件中，你有優化思路嗎？

小秋：那我可以先把每個數先做哈希函數映射，根據哈希函數得到的哈希值，再把他們存放到對應的文件中，如果哈希函數設計到好的話，那么這些數就會分布的比較平均。（關于哈希函數的設計，我就不說了，我這只是提供一種思路）

40億級別

面試官：那如果我把 20 億個數加到 40 億個數呢？

小秋：（這還不簡單，映射到42個文件唄）那我可以加大文件的數量啊。

面試官：那如果我給的這 40 億個數中數值都是一樣的，那么你的哈希表中，某個 key 的 value 存放的數值就會是 40 億，然而 int 的最大數值是 21 億左右，那么就會出現溢出，你該怎么辦？

小秋：（那我把 int 改為 long 不就得了，雖然會占用更多的內存，那我可以把文件分多幾份唄，不過，這應該不是面試官想要的答案），我可以把 value 初始值賦值為?負21億，這樣，如果 value 的數值是 21 億的話，就代表某個 key 出現了 42 億次了。

80億級別

面試官：反應挺快哈，那我如果把 40 億增加到 80 億呢？

小秋：（我靠，這變本加厲啊）………我知道了，我可以一邊遍歷一遍判斷啊，如果我在統計的過程中，發現某個 key 出現的次數超過了 40 億次，那么，就不可能再有另外一個 key 出現的次數比它多了，那我直接把這個 key 返回就搞定了。

面試官：行，此次面試到此結束，回去等通知吧。

總結

今天這篇文章主要講了大數據處理相關的一些問題，后面可能還會給大家找一些類似，但處理方式不同的題勒，當然，閱讀量很差的話，就會沒動力寫了，所以，如果覺得不錯，或許可以轉發一波，，，閱讀量一好，熬夜也要擼，嘿嘿。對了，后面的那些拓展問題是我自己想的，我也不知道我對應的思路是否是最優解，大家有更好思路的可以底部留言提供哈。

總結

以上是生活随笔為你收集整理的如何只用2GB内存从20/40/80亿个整数中找到出现次数最多的数的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。