當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据算法 --hadoop/spark数据处理技巧 --（二次排序问题和TopN问题）

發(fā)布時間：2025/3/16 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了数据算法 --hadoop/spark数据处理技巧 --（二次排序问题和TopN问题）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、二次排序問題。

　　MR/hadoop兩種方案：

　　　　1.讓reducer讀取和緩存給個定鍵的所有值（例如，緩存到一個數(shù)組數(shù)據(jù)結(jié)構(gòu)中，）然后對這些值完成一個reducer中排序。這種方法不具有可伸縮性，因?yàn)閞educer要接受一個給定鍵的所有值，這種方法可能導(dǎo)致reducer的內(nèi)存耗盡（OOM）。另一方面，如果值數(shù)量很少，就不會導(dǎo)致內(nèi)存溢出，那么這種方法可行。

　　　　2.使用MR框架對reducer的值排序（這樣一來，就不再需要對傳入reducer的值完成排序。）這種方法“會為自然鍵增加部分或整個值來創(chuàng)建一個組合鍵以實(shí)現(xiàn)排序目標(biāo)”（參考 java Code Geeks）。這種方法可伸縮，不會產(chǎn)生內(nèi)存溢出錯誤。在這里，排序工作基本上由MR框架來完成。

　　　　? ?使用MR框架的二次排序設(shè)計(jì)模式，規(guī)約器值到達(dá)時就是有序地。（也就是說，不再需要在內(nèi)存中對值進(jìn)行排序）。這種技術(shù)使用了MR框架的洗牌和排序技術(shù)完成規(guī)約器值的排序。這種解決方案比1更可取，不再依賴內(nèi)存完成排序。　　　　

　　　　思考分析：對返回?cái)?shù)據(jù)形式進(jìn)行分析，自定義對象和reducer的分區(qū)策略。（當(dāng)然為了實(shí)現(xiàn)排序，要對自定義的對象進(jìn)行實(shí)現(xiàn)comparele接口，重寫compare方法。）

　　spark兩種方案：

　　　　1.將一個給定鍵的所有值讀取緩存到一個List數(shù)組結(jié)構(gòu)中，然后對這些值完成排序。優(yōu)缺點(diǎn)同MR方案1.

　　　　2.使用Spark框架對規(guī)約器值排序（這種做法不需要對傳入規(guī)約器的值完成規(guī)約器中排序）。這種方法“會為自然建增加部分或整個值來創(chuàng)建一個組合鍵以實(shí)現(xiàn)排序目標(biāo)。”

二。 Top N問題。

　　列表L的TopN 算法大致描述：L列表的元素是一個scala的tuple結(jié)構(gòu)，通過java的TreeMap將一個tuple添加到其中，然后對TreeMap進(jìn)>N的if操作，來進(jìn)行remove操作。

　　1.唯一鍵。

　　　　例子：

　　　　在這個問題上，可以使用一個規(guī)約器完成對所有數(shù)據(jù)的接收，所有壓力和負(fù)載全部是都在這一個節(jié)點(diǎn)上。在這里不糊帶來性能問題，為什么呢。假設(shè)有由1000個映射，每個映射器只會生成10個鍵值對，因?yàn)?#xff0c;這個規(guī)約器只會得到10*1000個記錄，這個數(shù)據(jù)量還不至于導(dǎo)致性能瓶頸。

　　　　2.非唯一鍵

?　　　　　　例子：

　　　　　　topN設(shè)計(jì)模式：這里假設(shè)所有K不是唯一的，主要步驟：

　　　　　　　?、佟４_保所有K是唯一的。要保證K是唯一的(存在不唯一的，直接把相同的K的V相加。)，我們要把輸入映射到JavaPairRDD<K,V>對，然后交給reduceByKey().

　　　　　　　?、?。將所有唯一的（K，V）對劃分為M個分區(qū)。

　　　　　　　　③。找出個個分區(qū)的Top N。

　　　　　　　　④。找出所有本地topN的最終top N.

轉(zhuǎn)載于:https://www.cnblogs.com/dhName/p/11351718.html

總結(jié)

以上是生活随笔為你收集整理的数据算法 --hadoop/spark数据处理技巧 --（二次排序问题和TopN问题）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数据算法 --hadoop/spark数据处理技巧 --（二次排序问题和TopN问题）

總結(jié)