MapReduce-Reduce端join操作-步骤分析
生活随笔
收集整理的這篇文章主要介紹了
MapReduce-Reduce端join操作-步骤分析
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
?[案例] Reduce 端實現(xiàn) JOIN
需求
假如數(shù)據(jù)量巨大,兩表的數(shù)據(jù)是以文件的形式存儲在 HDFS 中, 需要用 MapReduce 程序來實現(xiàn)以下 SQL 查詢運算
select a.id,a.date,b.name,b.category_id,b.price from t_order a left join t_product b on a.pid = b.id訂單數(shù)據(jù)表
| id | date | pid | amount |
| 1001 | 20150710 | P0001 | 2 |
| 1002 | 20150710 | P0001 | 3 |
| 1002 | 20150710 | P0002 | 3 |
商品信息表
| id | pname | category_id | price |
| P0001 | 小米5 | 1000 | 2000 |
| P0002 | 錘子T1 | 1000 | 3000 |
實現(xiàn)機(jī)制
通過將關(guān)聯(lián)的條件作為map輸出的key,將兩表滿足join條件的數(shù)據(jù)并攜帶數(shù)據(jù)所來源的文件信息,發(fā)往同一個reduce task,在reduce中進(jìn)行數(shù)據(jù)的串聯(lián)
總結(jié)
以上是生活随笔為你收集整理的MapReduce-Reduce端join操作-步骤分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MapReduce运行机制-Reduce
- 下一篇: MapReduce-Reduce端joi