Java最小堆解决TopK问题
轉載自??Java最小堆解決TopK問題
TopK問題是指從大量數據(源數據)中獲取最大(或最小)的K個數據。
TopK問題是個很常見的問題:例如學校要從全校學生中找到成績最高的500名學生,再例如某搜索引擎要統計每天的100條搜索次數最多的關鍵詞。
對于這個問題,解決方法有很多:
方法一:對源數據中所有數據進行排序,取出前K個數據,就是TopK。
但是當數據量很大時,只需要k個最大的數,整體排序很耗時,效率不高。
?
方法二:維護一個K長度的數組a[],先讀取源數據中的前K個放入數組,對該數組進行升序排序,再依次讀取源數據第K個以后的數據,和數組中最小的元素(a[0])比較,如果小于a[0]直接pass,大于的話,就丟棄最小的元素a[0],利用二分法找到其位置,然后該位置前的數組元素整體向前移位,直到源數據讀取結束。
這比方法一效率會有很大的提高,但是當K的值較大的時候,長度為K的數據整體移位,也是非常耗時的。
對于這種問題,效率比較高的解決方法是使用最小堆。
最小堆(小根堆)是一種數據結構,它首先是一顆完全二叉樹,并且,它所有父節點的值小于或等于兩個子節點的值。
最小堆的存儲結構(物理結構)實際上是一個數組。如下圖:
堆有幾個重要操作:
BuildHeap:將普通數組轉換成堆,轉換完成后,數組就符合堆的特性:所有父節點的值小于或等于兩個子節點的值。
Heapify(int i):當元素i的左右子樹都是小根堆時,通過Heapify讓i元素下降到適當的位置,以符合堆的性質。
回到上面的取TopK問題上,用最小堆的解決方法就是:先去源數據中的K個元素放到一個長度為K的數組中去,再把數組轉換成最小堆。再依次取源數據中的K個之后的數據和堆的根節點(數組的第一個元素)比較,根據最小堆的性質,根節點一定是堆中最小的元素,如果小于它,則直接pass,大于的話,就替換掉跟元素,并對根元素進行Heapify,直到源數據遍歷結束。
最小堆的實現:
public class MinHeap { // 堆的存儲結構 - 數組 private int[] data; // 將一個數組傳入構造方法,并轉換成一個小根堆 public MinHeap(int[] data) { this.data = data; buildHeap(); } // 將數組轉換成最小堆 private void buildHeap() { // 完全二叉樹只有數組下標小于或等于 (data.length) / 2 - 1 的元素有孩子結點,遍歷這些結點。 // *比如上面的圖中,數組有10個元素, (data.length) / 2 - 1的值為4,a[4]有孩子結點,但a[5]沒有* for (int i = (data.length) / 2 - 1; i >= 0; i--) { // 對有孩子結點的元素heapify heapify(i); } } private void heapify(int i) { // 獲取左右結點的數組下標 int l = left(i); int r = right(i); // 這是一個臨時變量,表示 跟結點、左結點、右結點中最小的值的結點的下標 int smallest = i; // 存在左結點,且左結點的值小于根結點的值 if (l < data.length && data[l] < data[i]) smallest = l; // 存在右結點,且右結點的值小于以上比較的較小值 if (r < data.length && data[r] < data[smallest]) smallest = r; // 左右結點的值都大于根節點,直接return,不做任何操作 if (i == smallest) return; // 交換根節點和左右結點中最小的那個值,把根節點的值替換下去 swap(i, smallest); // 由于替換后左右子樹會被影響,所以要對受影響的子樹再進行heapify heapify(smallest); } // 獲取右結點的數組下標 private int right(int i) { return (i + 1) << 1; } // 獲取左結點的數組下標 private int left(int i) { return ((i + 1) << 1) - 1; } // 交換元素位置 private void swap(int i, int j) { int tmp = data[i]; data[i] = data[j]; data[j] = tmp; } // 獲取對中的最小的元素,根元素 public int getRoot() { return data[0]; } // 替換根元素,并重新heapify public void setRoot(int root) { data[0] = root; heapify(0); } }利用最小堆獲取TopK:
public class TopK { public static void main(String[] args) { // 源數據 int[] data = {56,275,12,6,45,478,41,1236,456,12,546,45}; // 獲取Top5 int[] top5 = topK(data, 5); for(int i=0;i<5;i++) { System.out.println(top5[i]); } } // 從data數組中獲取最大的k個數 private static int[] topK(int[] data,int k) { // 先取K個元素放入一個數組topk中 int[] topk = new int[k]; for(int i = 0;i< k;i++) { topk[i] = data[i]; } // 轉換成最小堆 MinHeap heap = new MinHeap(topk); // 從k開始,遍歷data for(int i= k;i<data.length;i++) { int root = heap.getRoot(); // 當數據大于堆中最小的數(根節點)時,替換堆中的根節點,再轉換成堆 if(data[i] > root) { heap.setRoot(data[i]); } } return topk; } }?
?
?
總結
以上是生活随笔為你收集整理的Java最小堆解决TopK问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何恢复电脑配置文件?
- 下一篇: 电脑开机时显示配置service pac