[转]第(前)k大数问题
在網上搜了搜,發現這種問題有很多種解法,并且衍生出來很多新的問題。貼出來給大家看看。
轉自http://summerbell.javaeye.com/blog/510394
---------------------------------------------------------------------------------------------------------
所謂“第(前)k大數問題”指的是在長度為n(n>=k)的亂序數組中S找出從大到小順序的第(前)k個數的問題。
?
解法1:我們可以對這個亂序數組按照從大到小先行排序,然后取出前k大,總的時間復雜度為O(n*logn+k)。
?
解法2:利用選擇排序或交互排序,K次選擇后即可得到第k大的數。總的時間復雜度為O(n*k)
?
解法3:利用快速排序的思想,從數組S中隨機找出一個元素X,把數組分為兩部分Sa和Sb。Sa中的元素大于等于X,Sb中元素小于X。這時有兩種情況:
1.Sa中元素的個數小于k,則Sb中的第k-|Sa|個元素即為第k大數;
2.Sa中元素的個數大于等于k,則返回Sa中的第k大數。時間復雜度近似為O(n)
///
回憶一下快速排序,快排中的每一步,都是將待排數據分做兩組,其中一組的數據的任何一個數都比另一組中的任何一個大,然后再對兩組分別做類似的操作,然后繼續下去……
在本問題中,假設N個數存儲在數組S中,我們從數組S中隨機找出一個元素X,把數組分為兩部分Sa和Sb。Sa中的元素大于等于X,Sb中元素小于X。
這時,有兩種可能性:
1.???Sa中元素的個數小于K,Sa中所有的數和Sb中最大的K-|Sa|個元素(|Sa|指Sa中元素的個數)就是數組S中最大的K個數。
2.???Sa中元素的個數大于或等于K,則需要返回Sa中最大的K個元素。
這樣遞歸下去,不斷把問題分解成更小的問題,平均時間復雜度O(N * log2K)。
?
解法4:二分[Smin,Smax]查找結果X,統計X在數組中出現,且整個數組中比X大的數目為k-1的數即為第k大數。時間復雜度平均情況為O(n*logn)
?
解法5:用O(4*n)的方法對原數組建最大堆,然后pop出k次即可。時間復雜度為O(4*n+k*logn)
?
解法6:維護一個k大小的最小堆,對于數組中的每一個元素判斷與堆頂的大小,若堆頂較大,則不管,否則,彈出堆頂,將當前值插入到堆中。時間復雜度O(n*logk)
?
解法7:利用hash保存數組中元素Si出現的次數,利用計數排序的思想,線性從大到小掃描過程中,前面有k-1個數則為第k大數,平均情況下時間復雜度O(n)
//
上面類快速排序的方法平均時間復雜度是線性的。能否有確定的線性算法呢?是否可以通過改進計數排序、基數排序等來得到一個更高效的算法呢?答案是肯定的。但算法的適用范圍會受到一定的限制。
如果所有N個數都是正整數,且它們的取值范圍不太大,可以考慮申請空間,記錄每個整數出現的次數,然后再從大到小取最大的K個。比如,所有整數都在(0, MAXN)區間中的話,利用一個數組count[MAXN]來記錄每個整數出現的個數(count[i]表示整數i在所有整數中出現的個數)。我們只需要掃描一遍就可以得到count數組。然后,尋找第K大的元素。
?
?
附注:
1.STL中可以用nth_element求得類似的第n大的數(由謂詞決定),使用的是解法3中的思想,還可以用partial_sort對區間進行部分排序,得到類似前k大的數(由謂詞決定),它采用的是解法5的思想。
2.求中位數實際上是第k大數的特例。
?
《編程之美》2.5節課后習題:
1.如果需要找出N個數中最大的K個不同的浮點數呢?比如,含有10個浮點數的數組(1.5,1.5,2.5,3.5,3.5,5,0,-1.5,3.5)中最大的3個不同的浮點數是(5,3.5,2.5)。
解答:上面的解法均適用,需要注意的是浮點數比較時和整數不同,另外求hashkey的方法也會略有不同。
2.如果是找第k到第m(0<k<=m<=n)大的數呢?
解答:如果把問題看做m-k+1個第k大問題,則前面解法均適用。但是對于類似前k大這樣的問題,最好使用解法5或者解法7,總體復雜度較低。
3.在搜索引擎中,網絡上的每個網頁都有“權威性”權重,如pagerank。如果我們需要尋找權重最大的K個網頁,而網頁的權重會不斷地更新,那么算法要如何變動以達到快速更新(incremental update)并及時返回權重最大的K個網頁?
提示:堆排序?當每一個網頁權重更新的時候,更新堆。還有更好的方法嗎?
解答:要達到快速的更新,我們可以解法5,使用映射二分堆,可以使更新的操作達到O(logn)
4.在實際應用中,還有一個“精確度”的問題。我們可能并不需要返回嚴格意義上的最大的K個元素,在邊界位置允許出現一些誤差。當用戶輸入一個query的時候,對于每一個文檔d來說,它跟這個query之間都有一個相關性衡量權重f(query,d)。搜索引擎需要返回給用戶的就是相關性權重最大的K個網頁。如果每頁10個網頁,用戶不會關心第1000頁開外搜索結果的“精確度”,稍有誤差是可以接受的。比如我們可以返回相關性第10001大的網頁,而不是第9999大的。在這種情況下,算法該如何改進才能更快更有效率呢?網頁的數目可能大到一臺機器無法容納得下,這時怎么辦呢?
提示:歸并排序?如果每臺機器都返回最相關的K個文檔,那么所有機器上最相關K個文檔的并集肯定包含全集中最相關的K個文檔。由于邊界情況并不需要非常精確,如果每臺機器返回最好的K’個文檔,那么K’應該如何取值,以達到我們返回最相關的90%*K個文檔是完全精確的,或者最終返回的最相關的K個文檔精確度超過90%(最相關的K個文檔中90%以上在全集中相關性的確排在前K),或者最終返回的最相關的K個文檔最差的相關性排序沒有超出110%*K。
解答:正如提示中所說,可以讓每臺機器返回最相關的K’個文檔,然后利用歸并排序的思想,得到所有文檔中最相關的K個。最好的情況是這K個文檔在所有機器中平均分布,這時每臺機器只要K’=K/n(n為所有機器總數);最壞情況,所有最相關的K個文檔只出現在其中的某一臺機器上,這時K’需近似等于K了。我覺得比較好的做法可以在每臺機器上維護一個堆,然后對堆頂元素實行歸并排序。
5.如第4點所說,對于每個文檔d,相對于不同的關鍵字q1,q2,…,qm,分別有相關性權重f(d,q1),f(d,q2),…,f(d,qm)。如果用戶輸入關鍵字qi之后,我們已經獲得了最相關的K個文檔,而已知關鍵字qj跟關鍵字qi相似,文檔跟這兩個關鍵字的權重大小比較靠近,那么關鍵字qi的最相關的K個文檔,對尋找qj最相關的K個文檔有沒有幫助呢?
解答:肯定是有幫助的。在搜索關鍵字qj最相關的K個文檔時,可以在qj的“近義詞”相關文檔中搜索部分,然后在全局的所有文檔中在搜索部分。
閱讀全文類別:算法學習?查看評論
轉載于:https://www.cnblogs.com/iammatthew/archive/2010/07/22/1803865.html
總結
以上是生活随笔為你收集整理的[转]第(前)k大数问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 公用表表达式(CTE)WITH:树型查询
- 下一篇: [D3D] - 用PerfHUD来调试商