日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

torque+maui作业调度

發(fā)布時(shí)間:2024/1/1 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 torque+maui作业调度 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)于Torque+maui調(diào)度

  • 使用背景
  • 解決方案
  • 使用總結(jié):
    • 一.相關(guān)命令
    • 二.maui配置:

使用背景

針對(duì)實(shí)際集群環(huán)境中,計(jì)算資源總體數(shù)量固定,容易產(chǎn)生計(jì)算需求高峰,用戶的作業(yè)會(huì)出現(xiàn)排隊(duì)的現(xiàn)象。為保障關(guān)鍵計(jì)算任務(wù)的運(yùn)行,避免資源需求“潮汐”影響,需要對(duì)集群的作業(yè)進(jìn)行自動(dòng)化調(diào)度、排序。

解決方案

1.限定用戶作業(yè)的最大作業(yè)數(shù)量、同一時(shí)刻的最大運(yùn)行總核數(shù)、用戶的優(yōu)先級(jí),當(dāng)高優(yōu)先級(jí)用戶作業(yè)未超出上述限定范圍,但計(jì)算作業(yè)依然因?yàn)橘Y源需求排隊(duì),無法計(jì)算時(shí),則殺死部 分普通用戶作業(yè)(低優(yōu)先級(jí)作業(yè)),以釋放資源,滿足重大計(jì)算任務(wù)運(yùn)行。2.由于 torque+maui 在調(diào)度策略上不支持搶占調(diào)度,因此需要額外開發(fā)工具,定期檢測(cè)作業(yè)的運(yùn)行狀態(tài),并采用外力干預(yù)作業(yè)的運(yùn)行。若集群可以更換為 Slurm 或者 LSF 作業(yè)調(diào)度系統(tǒng),則可以使用作業(yè)調(diào)度自帶的搶占功能,進(jìn)行彌補(bǔ)。

使用總結(jié):

一.相關(guān)命令

與作業(yè)相關(guān)TORQUE 和Maui 常用的用戶命令主要有:canceljob:取消已存在的作業(yè)checkjob:顯示作業(yè)狀態(tài)、資源需求、環(huán)境、限制、信任、歷史、已分配資源和資源利用等nqs2pbs:將nqs 作業(yè)腳本轉(zhuǎn)換為pbs 作業(yè)腳本pbsnodes:顯示節(jié)點(diǎn)信息printjob:顯示指定作業(yè)腳本中的作業(yè)信息qdel:取消指定的作業(yè)qhold:掛起一個(gè)作業(yè)qmove:將一個(gè)作業(yè)從一個(gè)隊(duì)列移到另一個(gè)隊(duì)列中qnodes:pbsnodes 的別名,顯示節(jié)點(diǎn)信息qorder:交換兩個(gè)作業(yè)的排隊(duì)順序qrls:將被掛起的作業(yè)送入準(zhǔn)備運(yùn)行的隊(duì)列中qselect:顯示符合條件的作業(yè)的作業(yè)號(hào)qstat:顯示隊(duì)列、服務(wù)節(jié)點(diǎn)和作業(yè)的信息qsub:提交作業(yè)showbf:顯示有特殊資源需求的資源的可用性showq:顯示已激活和空閑的作業(yè)的優(yōu)先級(jí)細(xì)節(jié)showstart:顯示空閑作業(yè)的估計(jì)開始時(shí)間tracejob:追蹤作業(yè)信息diagnose -p:查看正在排隊(duì)的任務(wù)的優(yōu)先值setspri 優(yōu)先值 JOBID:(maui命令)將JOBID的任務(wù)的優(yōu)先值修改為現(xiàn)在的優(yōu)先值,優(yōu)先值在0-1000之內(nèi)setspri -r 優(yōu)先值 JOBID:(maui命令)在現(xiàn)有的優(yōu)先值的基礎(chǔ)上加上或者減去指定的優(yōu)先值。優(yōu)先值的范圍在+/- 1000000000qhold JOBID:(torque的命令)將JOBID從排隊(duì)的隊(duì)列中暫停排隊(duì)qrls JOBID:(torque的命令)將被暫停掉的JOBID放回到隊(duì)列中,參與排隊(duì)。這個(gè)時(shí)候,任務(wù)的優(yōu)先值從頭計(jì)算。以前的優(yōu)先值丟失sethold -b JOBID:(maui的命令)將JOBID從排隊(duì)的隊(duì)列中暫停排隊(duì)。releasehold -a JOBID:(maui的命令)將被暫停掉的JOBID放回到隊(duì)列中,參與排隊(duì)。qmgr -c "p s":查看創(chuàng)建的隊(duì)列情況qrerun jobid:重新提交作業(yè),作業(yè)id和原作業(yè)相同注:具體請(qǐng)參考TORQUE 和Maui 用戶手冊(cè)。

二.maui配置:

范例1:USERCFG[user1] MAXJOB=3 MAXPROC=64 RIORITY=1000說明:用戶 user1,最多 3 個(gè) running 的作業(yè),一共最多 64 核,該用戶作業(yè)初始優(yōu)先級(jí)為 1000。 范例2:USERWEIGHT 2GROUPWEIGHT 1GROUPCFG[test1] PRIORITY=100GROUPCFG[test2] PRIORITY=1000說明:用戶組test1中用戶提交的作業(yè)初始優(yōu)先級(jí)為 100。用戶組test2中用戶提交的作業(yè)初始優(yōu)先級(jí)為 1000,且用戶組設(shè)置的權(quán)重為1,如果用戶組test1、test2中設(shè)置了部分用戶的有限級(jí),USERWEIGHT 2表名用戶維度的優(yōu)先值權(quán)重為2。總優(yōu)先值=(A prioritiy)*(A WEIGHT)+(B prioritiy)*(B WEIGHT)+……關(guān)于隊(duì)列,節(jié)點(diǎn)等配置后續(xù)使用過程中繼續(xù)更新。因?qū)嫶蟮恼{(diào)度系統(tǒng)相關(guān)內(nèi)容研究淺薄,以上使用場(chǎng)景只是冰山一角,如有問題,歡迎小伙們指正。

總結(jié)

以上是生活随笔為你收集整理的torque+maui作业调度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。