當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

使用hive报 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法

發(fā)布時(shí)間：2023/12/8 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了使用hive报 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.情況

兩表join 其他時(shí)間數(shù)據(jù)正常插入。唯獨(dú)插入7月1日數(shù)據(jù)時(shí) , 報(bào)錯(cuò):
- join 語(yǔ)句

insert overwrite table A partition (log_date= '20210701') select a.id,a.name,b.age from employees e left join b on a.id=b.id where a.log_date= '20210701' and b.log_date= '20210701'

報(bào)錯(cuò)如下:

INFO : Total MapReduce CPU Time Spent: -1 msecINFO : Stage-Stage-1: HDFS Read: 2872700580746 HDFS Write: 13674470480571 FAILINFO : MapReduce Jobs Launched: ERROR : FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskERROR : Ended Job = job_1626955970433_229281 with errorscom.bilibili.dispatcher.lib.exception.DispatcherException: execute failed2021-07-23 18:33:44 249 attempt to execute on HIVE_SERVER failed [USER_ERROR:EXECUTE_FAILED:1004]

2.分析

為什么唯獨(dú)7月1號(hào)數(shù)據(jù)異常?是不是這天數(shù)據(jù)量過大?
- 不可能過大,過大最多導(dǎo)致執(zhí)行慢
兩表join時(shí)，shuffer過程中導(dǎo)致導(dǎo)致同一同一分區(qū)可以過大導(dǎo)致reduceTaks 數(shù)據(jù)分布不均勻?
- 方案1 : mapjoin 不行 mapJoin 做多建議表的大小為2G 但是單表過大
- 方法2 : 設(shè)置 reduceJoin將超過閾值的key 寫入文件再啟用一個(gè)mapJob

3.解決

# join的鍵對(duì)應(yīng)的記錄條數(shù)超過這個(gè)值則會(huì)進(jìn)行分拆，值根據(jù)具體數(shù)據(jù)量設(shè)置 set hive.skewjoin.key=10 0000; # 如果是join過程出現(xiàn)傾斜應(yīng)該設(shè)置為trueset hive.optimize.skewjoin=true;

總結(jié)

以上是生活随笔為你收集整理的使用hive报 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Hive查询报错，return code
下一篇： Execution Error, ret