日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

提高spark任务稳定性的解决方案及Blacklist 机制说明解释

發布時間:2024/3/7 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 提高spark任务稳定性的解决方案及Blacklist 机制说明解释 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

分布式集群中,特別是高負載的情況下,就會引發很多意想不到的問題,例如:
1、壞盤/硬盤滿將會導致 /path/to/usercache 目錄創建失敗,一個stage中任務失敗次數達到一定次數(spark.task.maxFailures)會導致整個job失敗。
2、executor 注冊 external shuffle service 超時。
3、executor 從 external shuffle service 獲取數據超時,task 反復失敗后導致了整 個stage 的失敗。
4、環境依賴問題,例如 xxx 包不存在, xxx 包沒有安裝。
5、dns 沒有配置,網絡不通
...

為什么 task 失敗后還會被 schedular 重新調度在原來的 node 或是 executor上
數據本地性(spark會優先把task調度在有相應數據的節點上)導致。
是否只能聽天由命,每次失敗后重新調度? 如果任務有SLA

總結

以上是生活随笔為你收集整理的提高spark任务稳定性的解决方案及Blacklist 机制说明解释的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。