CentOS下torque集群配置(一)-torque安装与配置
CentOS下torque集群配置(一)-torque安裝與配置
一、Centos7系統(tǒng)的安裝及設(shè)置
1、給兩臺(tái)電腦安裝CentOS7.0,光盤啟動(dòng)路徑修改為:/dev/cdrom
修改主機(jī)名稱
# hostnamectl set-hostname?<host-name>
2、設(shè)置ip地址
# vi /etc/sysconfig/network-scripts/ifcfg-eth0
添加下列屬性值
IPADDR=”192.168.0.134”
NETMASK=”255.255.255.0”
BROADCAST=”192.168.0.255”
GATEWAY=”192.168.0.1”
3、設(shè)置**/etc/hosts**
設(shè)置各臺(tái)服務(wù)器的hosts文件都為相同的配置
192.168.0.134 ???master
192.168.0.135??? de2
192.168.0.136??? de2
4、進(jìn)行ssh無密碼訪問設(shè)置
4.1、單項(xiàng)設(shè)置服務(wù)器
A訪問B無需密碼
a.首先在A中執(zhí)行?#ssh-keygen -t rsa 連按3下進(jìn)行無密碼設(shè)置;執(zhí)行上面一步,會(huì)在~/.ssh目錄下生成兩個(gè)文件id_rsa和id_rsa.pub, 其中id_rsa是私鑰,保存在本機(jī);id_rsa.pub是公鑰,是要上傳到遠(yuǎn)程服務(wù)器的。
b.上傳公鑰到需要無密碼登陸的遠(yuǎn)程服務(wù)器B上并改名為authorized_keys:
遠(yuǎn)程服務(wù)器B上如果沒有.ssh目錄的話,先手動(dòng)創(chuàng)建:
[root@localhost ~]# mkdir .ssh
[root@localhost ~]# chmod 755 .ssh
c.然后從服務(wù)器A上傳公鑰文件到遠(yuǎn)程服務(wù)器B:
[root@localhost ~]# scp .ssh/id_rsa.pub??root@192.168.0.135:/root/.ssh/authorized_keys
??????? 然后使用#ssh slave? 測試,無需密碼轉(zhuǎn)到服務(wù)器B成功。
4.2多臺(tái)服務(wù)器相互無密碼訪問
??? 按照上面的思想,可以將每臺(tái)服務(wù)器上執(zhí)行一次#ssh-keygen–t rsa?? 然后將它的公鑰復(fù)制到需要免密碼訪問本臺(tái)服務(wù)器的機(jī)器上,即執(zhí)行上面的c步驟
多臺(tái)電腦ssh無密碼訪問
1.安裝ssh. ?sudo apt-get install ssh.?安裝完成后會(huì)在~目錄(當(dāng)前用戶主目錄,即這里的/home/xuhui)下產(chǎn)生一個(gè)隱藏文件夾.ssh(ls -a 可以查看隱藏文件)。如果沒有這個(gè)文件,自己新建即可(mkdir .ssh).
2.進(jìn)入.ssh目錄下面,在每臺(tái)機(jī)器上執(zhí)行:ssh-keygen -t ?rsa ?之后一路回車,產(chǎn)生密鑰;
3。完成第二步后會(huì)產(chǎn)生兩個(gè)文件:
id-rsa ? ? #私鑰
id-rsa.pub ? #公鑰
4.在第一臺(tái)機(jī)器的目錄.ssh下執(zhí)行命令,cat ?id-rsa.pub >> authorized_keys;此后.ssh下面會(huì)出現(xiàn)authorized_keys文件。
5.然后將第一臺(tái)機(jī)器的.ssh目錄下面的authorized_keys文件拷貝到第二臺(tái)計(jì)算機(jī)的.ssh目錄下,如:scp authorized_keys xuhui@cloud002:~/.ssh/
6.再轉(zhuǎn)到第二臺(tái)機(jī)器的.ssh目錄下,會(huì)發(fā)現(xiàn)剛剛傳輸過來的文件-authorized_keys,然后執(zhí)行命令,將第二臺(tái)計(jì)算機(jī)的公鑰也加進(jìn)來,如:cat id-rsa.pub >> authorized_keys.
7.將第二臺(tái)計(jì)算機(jī)新生成的authorized_keys傳輸?shù)谌_(tái)計(jì)算機(jī),將第三臺(tái)計(jì)算機(jī)的公鑰-id-rsa.pub添加到從第二臺(tái)計(jì)算機(jī)傳過來的authorized_keys里面。
8.依次類推,直至集群中的最后一臺(tái)計(jì)算機(jī)。
9.在集群的最后一臺(tái)計(jì)算機(jī)執(zhí)行完添加后,生成的authorized_keys文件就包含集群中所有計(jì)算機(jī)的公鑰,如果以后還有機(jī)器加進(jìn)到集群中來,可以直接添加到文件-authorized_keys。最后,將最后生成的authorized_keys復(fù)制到集群中的每一臺(tái)計(jì)算機(jī)的.ssh目錄下,覆蓋掉之前的authorized_keys。
10.完沉第九步后,就可以在集群中任意一臺(tái)計(jì)算機(jī)上,免密碼ssh登錄到其他計(jì)算了。
二、torque安裝與配置
(一)Master主服務(wù)器配置
torque鏈接?http://wpfilebase.s3.amazonaws.com/torque/torque-4.1.2.tar.gz?( 正常 )
?????????? ???http://www.adaptivecomputing.com/download/torque/torque-4.2.7.tar.gz?(下載出錯(cuò))
http://adaptive.wpengine.com/resources/downloads/torque/torque-2.5.12.tar.gz
下載網(wǎng)址:?Support Portal
注:以上鏈接在 centos 上無法下載,但是 windows 系統(tǒng)可以進(jìn)去下載!!!
2015/1/24-http://wpfilebase.s3.amazonaws.com/torque/torque-4.2.5.tar.gz?(狀態(tài)可為 free ,但作業(yè)一直處于 Q 狀態(tài))
2015/1/25-http://wpfilebase.s3.amazonaws.com/torque/torque-4.2.8.tar.gz?(子節(jié)點(diǎn)都是 down ,后來發(fā)現(xiàn),應(yīng)該是 centos7 防火墻問題,沒關(guān)閉成功)
2015/1/26-http://adaptive.wpengine.com/resources/downloads/torque/torque-2.5.12.tar.gz?到了 ./torque.setup root 出錯(cuò)
2015/1/27-http://adaptive.wpengine.com/resources/downloads/torque/torque-4.1.7.tar.gz?(正常,但是子節(jié)點(diǎn)不能工作)
2015/1/28-http://adaptive.wpengine.com/resources/downloads/torque/torque-2.3.0.tar.gz??make 安裝有錯(cuò)
2015/1/29-http://adaptive.wpengine.com/resources/downloads/torque/torque-4.2.9.tar.gz??親測,安裝配置一切正常
最后使用版本: torque-4.2.9.tra.gz
注:在 centos7 可以通過?http://wpfilebase.s3.amazonaws.com/torque/torque-4.2.9.tar.gz?下載,只要更改后面的版本號(hào)即可,但是 5.0 以上的名稱有所變化,尚未找到下載鏈接,只能通過 windows 下載下來,然后上傳到服務(wù)器上進(jìn)行安裝
1、下載torque,版本可選,選擇合適的下載目錄,輸入下列命令
# wget –c?http://wpfilebase.s3.amazonaws.com/torque/torque-4.2.9.tar.gz
說明:保證 Master 服務(wù)器的主機(jī)名稱為 master ,且網(wǎng)絡(luò)連通
2、在root用戶下,解壓文件
# tar -zxvf torque-4.2.9.tar.gz
3、cd torque-4.2.1
4、master 配置
# yum?install?libxml2-devel?openssl-devel?gcc?gcc-c++?boost-devel?libtool-y
# ./configure?--prefix=/usr/local/torque-4.2.9?\
# --with-scp--with-default-server=master?&&?make?&&?make?packages&&?make?install
#cp?contrib/init.d/{pbs_{server,sched,mom},trqauthd}?/etc/init.d/
# for?i?in?pbs_server?pbs_sched?pbs_mom?trqauthd;?do?chkconfig?--add?$i;?chkconfig?$ion;?done
5、在torque的解壓路徑運(yùn)行**./torque.setup devin**時(shí)運(yùn)行下面兩句,設(shè)置環(huán)境變量
TORQUE=/usr/local/torque-4.2.9??
echo?"TORQUE=$TORQUE"?>>/etc/profile
echo?"export?PATH=$PATH:$TORQUE/bin:$TORQUE/sbin"?>>/etc/profile
source/etc/profile
./torque.setuproot
6、啟動(dòng)pbs_server、pbs_sched、pbs_mom、trqauthd幾個(gè)服務(wù)
# qterm –t quick??? ?
# for?i?in?pbs_server?pbs_sched?pbs_mom?trqauthd;?do?service?$i?start;?done
說明:Torque主要是由三個(gè)主要部件組成
pbs_server??PBS服務(wù)守護(hù)進(jìn)程,負(fù)責(zé)接收作業(yè)提交,位于服務(wù)節(jié)點(diǎn)上
pbs_sched??PBS調(diào)度守護(hù)進(jìn)程,負(fù)責(zé)調(diào)度作業(yè),位于服務(wù)節(jié)點(diǎn)上?
pbs_mom??PBS MOM守護(hù)進(jìn)程,?負(fù)責(zé)監(jiān)控本機(jī)并執(zhí)行作業(yè),位于所有計(jì)算節(jié)點(diǎn)上
7、調(diào)度節(jié)點(diǎn):
創(chuàng)建/var/spool/torque/server_priv/nodes文件并寫入如下內(nèi)容
?master
注:此處可以設(shè)置每個(gè)節(jié)點(diǎn)的 cpu 個(gè)數(shù)
8、計(jì)算節(jié)點(diǎn):
創(chuàng)建**/var/spool/torque/mom_priv/config**文件并寫入如下內(nèi)容
$pbsserver master
$logevent 255
9、啟動(dòng)torque,查看torque啟動(dòng)狀態(tài)
# ps -e | grep pbs
# for?i?in?pbs_server?pbs_sched?pbs_mom?trqauthd;?do?service?$i?restart;?done
查看節(jié)點(diǎn)
# qnodes??????? # 或者是 pbsnodes –a
狀態(tài)為free則正常
10、測試:
傳建一個(gè)用戶devin,切換到該用戶上,然后提交一個(gè)任務(wù),重復(fù)提交多次,然后回到root用戶,檢測
#adduser devin
# passwd devin????????? # 設(shè)置密碼
# su devin
# vi hello.sh
# qsub hello.sh? ?????? # 提交多次
# su root
# qstat –a –n??? ??????? # 查看作業(yè)分配和狀態(tài)
(二)Slave計(jì)算節(jié)點(diǎn)配置
1、設(shè)置ip,配置master和node的hosts,在**/etc/hosts**中
192.168.0.139 master
192.168.0.140 node1
2、設(shè)置master和node1之間ssh無密碼訪問
master? #ssh-keygen -t rsa
node1? ?#ssh-keygen-t rsa
master? # scp .ssh/id_rsa.pub?root@192.168.0.140:/root/.ssh/authorized_keys
node1?? # scp .ssh/id_rsa.pub?root@192.168.0.139:/root/.ssh/authorized_keys
或者是
Master:
??? # ssh-keygen?-r?rsa
# ssh-copy-id?-i??~/.ssh/id_rsa.pub?master
# ssh-copy-id?-i??~/.ssh/id_rsa.pub?node
Node:
# ssh-keygen?-r?rsa
# ssh-copy-id?-i??~/.ssh/id_rsa.pub?master
# ssh-copy-id?-i??~/.ssh/id_rsa.pub?node
3、在master運(yùn)行下面代碼,將下面文件拷貝到node節(jié)點(diǎn)中,前提node節(jié)點(diǎn)有torque4目錄
# scp?torque-package-{mom,clients}-linux-x86_64.sh?node1 : torque4
# scp?contrib/init.d/{pbs_mom,trqauthd}?node1:/etc/init.d/
4、node節(jié)點(diǎn)安裝拷貝過來的兩個(gè)文件
# ./torque-package-clients-linux-x86_64.sh?--install??
# ./torque-package-mom-linux-x86_64.sh?--install??
5、配置環(huán)境
?創(chuàng)建**/var/spool/torque/mom_priv/config**文件并寫入如下內(nèi)容
$pbsserver?master
$logevent 225
6、將計(jì)算節(jié)點(diǎn)加入到服務(wù)節(jié)點(diǎn)中
編輯**/var/spool/torque/server_priv/nodes**文件并寫入如下內(nèi)容
node1
7、啟動(dòng)pbs_mom
#for?i?in?pbs_mom?trqauthd;?do?service?$i?start;?done
集群搭建完畢:在集群中新增節(jié)點(diǎn) compute-98g-1 添加步驟
master:
vi/etc/hosts??? ???
添加計(jì)算節(jié)點(diǎn) ip 和名稱
10.10.12.10compute-98g-1
scp/etc/hosts root@ compute-98g-1:/etc/hosts
復(fù)制文件到計(jì)算節(jié)點(diǎn)覆蓋 hosts
vi/var/spool/torque/server_priv/nodes??
添加計(jì)算節(jié)點(diǎn)到 nodes : compute-98g-1
ssh compute-98g-1
compute-98g-1 :
serviceiptables stop??? ???
關(guān)閉防火墻
servicepbs_mom restart??? ?
啟動(dòng) pbs_mom
service trqauthdrestart?? ?
啟動(dòng) trqauthd
ssh master
master 運(yùn)行 :
qterm –tquick
servicepbs_mom restart
servicepbs_server restart
qnodes??
過會(huì)兒可以看到節(jié)點(diǎn)都是 free 狀態(tài)
2015.01.30-11:16? 提問:提交任務(wù)能否分配任務(wù)? ? 目測應(yīng)該是不能,還需要配置非 root 用戶的 ssh
2015.01.30-12:00? 經(jīng)測試 , 如果沒有設(shè)置非 root 用戶的 ssh ,則報(bào)錯(cuò)
設(shè)置非 root 用戶 ssh
說明: compute- 98g -1 下有 devin 用戶,在 devin 目錄下運(yùn)行 ssh-keygen–t rsa
[devin@master ~]#scp .ssh/authorized_keys devin@compute-98g-1:/home/devin/authorized_keys
[devin@master ~]#ssh compute-98-1
[devin@compute-98g-1~]# cd .ssh
[devin@compute-98g-1.ssh]# cat id_rsa.pub >> authorized_keys
[devin@compute-98g-1 .ssh]# scp authorized_keys devin@master:/home/devin/authorized_keys
更高階級(jí):Grid Engine
三、配置過程遇到的問題
1.torque 4.0 安裝
(1)是在qnodes查看節(jié)點(diǎn)的時(shí)候,報(bào)告trqauthd沒運(yùn)行之類的。
首先把trqauthd從安裝目錄里面找到,拷貝到etc/init.d下邊
在etc/profile里面增加一行
/etc/init.d/trqauthd restart
(2)qnodes發(fā)現(xiàn)節(jié)點(diǎn)的狀態(tài)是down,查看server 日志發(fā)現(xiàn)說不認(rèn)識(shí)hosts里面的當(dāng)前主機(jī)
后來,在主機(jī)后面增加了域名,OK了。? 注意關(guān)閉防火墻
(3)若此時(shí)運(yùn)行#qnodes找不到節(jié)點(diǎn),
則運(yùn)行:#qterm –t quick
然后重啟pbs_server服務(wù):#service pbs_server restart
(4) 如果出現(xiàn):
mxio@Node1:~/Downloads/torque-4.2.9$ ./torque.setup root
./torque.setup: 1: ./torque.setup: trqauthd: not found
trqauthd failed to start!!! exiting setup?錯(cuò)誤,那么請(qǐng)檢查第三步并刷新source /etc/profile。
(5)設(shè)置環(huán)境變量并刷新 (刷新環(huán)境變量需要注意時(shí)效性,如果root或sudoer退出終端,在沒有重啟機(jī)器的前提下,那么還是要刷新下的,不然可能會(huì)提示木有trqauthd之類的錯(cuò)誤)
sudo vi /etc/profile
添加
#Torque
export PATH=/usr/local/torque/bin:/usr/local/torque/sbin:$PATH
刷新環(huán)境變量 source /etc/profile
2.節(jié)點(diǎn)qnodes后一直是down
一定要記住:關(guān)閉防火墻,重啟也需要關(guān)閉防火墻
由于 centos7 關(guān)閉防火墻方式變化,需要配置一下,然后關(guān)閉
**?CentOS7的防火墻修改**
CentOS?7 默認(rèn)使用firewalld來管理iptables規(guī)則,由于防火墻規(guī)則變動(dòng)的情況很少,動(dòng)不動(dòng)態(tài)變得無所謂了。但是習(xí)慣是魔鬼,跟之前不一樣,總是感覺不太習(xí)慣。
systemctl disablefirewalld
yum remove firewalld -y
使用下面的辦法來恢復(fù)原來的習(xí)慣,同時(shí)解決iptables開機(jī)啟動(dòng)的問題。
yum installiptables-services -y
systemctl enable iptables
這樣的話,iptables服務(wù)會(huì)開機(jī)啟動(dòng),自動(dòng)從/etc/sysconfig/iptables文件導(dǎo)入規(guī)則。
為了讓/etc/init.d/iptablessave 這條命令生效,需要這么做
cp/usr/libexec/iptables/iptables.init /etc/init.d/iptables
/etc/init.d/iptables save
而chkconfig iptables 命令會(huì)自動(dòng)重定向到sytemctl enableiptables
3.計(jì)算節(jié)點(diǎn)無法執(zhí)行任務(wù):unable to runjob,MOM rejected/rc=-1
解決:SSH 配置非root用戶的即可
配置普通用戶的 ssh
# su devin
# cd
# ssh-keygen -t dsa
# cd .ssh
# cat id_pub.dsa >>authorized_keys
# chmod 600 authorized_keys
然后ssh相互切換一次,在.ssh目錄下生成kown_hosts文件就ok了
4.報(bào)錯(cuò):"Post job file processing error;job 15.masteron host node1/0".
確定非root用戶ssh能夠切換
5.Network is unreachable intcp_connect_sockaddr
qterm –t quick 關(guān)閉 pbs_server 服務(wù)
service pbs_momrestart
service pbs_serverrestart
service pbs_schedrestart
service pbs_trqauthdrestart
6.pbs_mom:LOG_ERROR::rm_requestunkonwn command 5
沒有返回到master機(jī)器,檢查ssh是否配置好。見問題3!
7.子節(jié)點(diǎn)運(yùn)行qnodes命令,報(bào)錯(cuò)
qnodes:cannot connect toserver master,error=15137,(could not connect totrqauthd)
解決:service trqauthd restart?? 開啟trqauthd即可.
前提:在/etc/profile文件添加torque環(huán)境變量PATH=”……”
8.pbs_mom pbs_server pbs_schedtrqauthd服務(wù)開機(jī)啟動(dòng)
將服務(wù)設(shè)定為開機(jī)啟動(dòng):?
#在伺服器端,以下這兩個(gè)為必要服務(wù)?
[ root@HPC torque-2.4.17]$ **chkconfig pbs_server on ?**
[root@HPC torque-2.4.17]$ **chkconfig pbs_sched on ?**
#如果也要把伺服器端加入運(yùn)算資源中,那也要啟動(dòng)pbs_mom?
[root@HPC torque-2.4.17]$chkconfigpbs_mom on
9.linux掛載訪問windows的共享目錄
mount?-t?cifs?-o?username=administrator,password=12345?//12.12.64.171/voice?/opt/test
四、Maui安裝及配置(可選)
torque默認(rèn)情況下使用pbs_sched管理,但對(duì)于用戶權(quán)限的設(shè)置,可以使用Maui輔助
Maui的安裝
下載鏈接:http://www.adaptivecomputing.com/download/mauischeduler/maui-3.3.1.tar.gz
http://www.adaptivecomputing.com/downloading/?file=/mauischeduler/maui-3.3.1.tar.gz
http://www.adaptivecomputing.com/download/
(一) 服務(wù)節(jié)點(diǎn)上安裝 Maui
root@master# tarzxvf maui-3.2.6p20-snap.1182974819.tar.gz
root@master# cd maui-3.2.6p20
root@master#./configure –prefix=/usr/local/maui-3.2.6p20 -–with-pbs=/usr/local/torque-4.2.9
修改 maui-3.3.1/src/moab
?[ajdecon@master moab]$ vi MPBSI.c
< extern int get_svrport( const char *,char *,int);
< extern int openrm(char*,int);
改成
extern?unsigned?int get_svrport(char *,char*,unsignedint);
extern int openrm(char *,unsignedint);
然后
root@master# make
root@master# make install
(二)服務(wù)節(jié)點(diǎn)上配置 Maui
修改?/usr/local/maui/maui.cfg,主要為下面幾項(xiàng):
SERVERHOSTkd50
# primary admin must be first in list
ADMIN1 root
# Resource Manager Definition
RMCFG[KD50] TYPE=PBS@RMNMHOST@RMTYPE[0] PBS****
啟動(dòng)maui
?/usr/local/maui/sbin/maui?
相關(guān)命令
# tracejob 125????#追蹤 job的 運(yùn)行狀態(tài)
# pbs_server –t quick //創(chuàng)建一個(gè)queue
# qmgr –c “p s”?? //顯示隊(duì)列信息
例:#?qdel?-W?15?211????????????15秒后刪除作業(yè)號(hào)為211的作業(yè)?
??
更多的關(guān)于Torque和Maui的使用,請(qǐng)參考《資源管理軟件?TORQUE?與安裝、設(shè)置》一文。?
Torque 官方網(wǎng)站說明文檔: ?
http://www.clusterresources.com/products/torque/docs/?Maui
官方網(wǎng)站說明文檔: ??
http://www.clusterresources.com/products/maui/docs/mauiadmin.shtml?
Maui安裝結(jié)束……
===================================================================================**?**
**?**
**五、Torque+Maui作業(yè)調(diào)度系統(tǒng)介紹?**
從用戶角度看,集群系統(tǒng)就好像一臺(tái)服務(wù)器或者PC。很多用戶可以同時(shí)使用這個(gè)系統(tǒng)。但是當(dāng)太多的用戶使用集群系統(tǒng)時(shí),系統(tǒng)性能會(huì)變得很差。資源管理就是管理用戶提交的作業(yè),合理給各個(gè)作業(yè)分配資源從而確保充分利用集群系統(tǒng)計(jì)算能力并盡可能快的得到運(yùn)算結(jié)果。簡單的說,集群資源由實(shí)現(xiàn)如下幾個(gè)部分:?
?資源管理器:為了確保分配給作業(yè)合適的資源,集群資源管理需要維護(hù)一個(gè)。這個(gè)
數(shù)據(jù)庫記?錄了集群系統(tǒng)中各種資源的屬性和狀態(tài)、所有用戶提交的請(qǐng)求和正在運(yùn)行的作業(yè)。策略管理器根據(jù)這些數(shù)據(jù)和指定的調(diào)度策略生成優(yōu)先級(jí)列表。資源管理器根據(jù)這優(yōu)先級(jí)列表調(diào)度作業(yè)。資源管理器還應(yīng)該具有資源預(yù)留能力。這樣不僅可以保留強(qiáng)大的資源給需要的作業(yè),而且可以預(yù)留一定的冗余資源以應(yīng)付集群中的結(jié)點(diǎn)失效和突發(fā)的計(jì)算。?
作業(yè)調(diào)度策略管理器:策略管理器根據(jù)資源管理器得到各個(gè)結(jié)點(diǎn)上的資源狀況和系
統(tǒng)的作業(yè)信息生成一個(gè)優(yōu)先級(jí)列表。這個(gè)列表告訴資源管理器何時(shí)在哪些結(jié)點(diǎn)上運(yùn)行哪個(gè)作業(yè)。策略管理器不僅要提供一個(gè)復(fù)雜的參數(shù)集合去定義計(jì)算環(huán)境和作業(yè),而且要為這個(gè)定義提供簡捷靈活的表達(dá)方式以允許實(shí)現(xiàn)策略驅(qū)動(dòng)的資源調(diào)度。
在IBM?HPC?Platform中我們采用了Torque+Maui的資源管理和作業(yè)調(diào)度系統(tǒng);其中Torque作為集群資源管理器,而Maui則是作為調(diào)度策略管理器。
PBS(Portable?Batch?System)最初由NASA的Ames研究中心開發(fā),主要為了提供一個(gè)能滿足異構(gòu)計(jì)算網(wǎng)絡(luò)需要的軟件包,用于靈活的批處理,特別是滿足高性能計(jì)算的需要,如集群系統(tǒng)、超級(jí)計(jì)算機(jī)和大規(guī)模并行系統(tǒng)。PBS的主要特點(diǎn)有:代碼開放,免費(fèi)獲取;支持批處理、交互式作業(yè)和串行、多種并行作業(yè),如MPI、?PVM、HPF、MPL;PBS是功能最為齊全,?歷史最悠久,?支持最廣泛的本地集群調(diào)度器之一。PBS的目前包括openPBS,?PBS?Pro和Torque三個(gè)主要分支.?其中OpenPBS是最早的PBS系統(tǒng),?目前已經(jīng)沒有太多后續(xù)開發(fā),?PBS?pro是PBS的商業(yè)版本,?功能最為豐富.?Torque是Clustering公司接過了OpenPBS,?并給與后續(xù)支持的一個(gè)開源版本。
應(yīng)用PBS提交任務(wù)則會(huì)形成任務(wù)隊(duì)列,依次執(zhí)行,有效分配資源,避免資源競爭。否則CPU時(shí)間片會(huì)輪流分配給各個(gè)人的任務(wù),從而影響所有人的正常作業(yè)。
Maui集群調(diào)度器?是Moab集群套件前身,是一個(gè)開放源碼的集群和超級(jí)計(jì)算機(jī)作業(yè)調(diào)度器(scheduler)。?PBS是一個(gè)用于作業(yè)分配的調(diào)度器?(scheduler),其主要任務(wù)是分配批作業(yè)計(jì)算任務(wù)到現(xiàn)有的計(jì)算資源上。?以下版本的PBS系統(tǒng)目前可用:?OpenPBS:沒有技術(shù)支持的原始開源版本;?PBSPro(PBS專業(yè)版):由Altair?Engineering發(fā)行和支持的商業(yè)版本;?Torque:衍?生的OpenPBS,由Cluster?Resources?Inc.發(fā)展,支持和維護(hù)
Maui?是一個(gè)高級(jí)的作業(yè)調(diào)度器。它采用積極的調(diào)度策略優(yōu)化資源的利用和減少作業(yè)的響應(yīng)時(shí)間。Maui的資源和負(fù)載管理允許高級(jí)的參數(shù)配置:作業(yè)優(yōu)先級(jí)(Job?Priority)、調(diào)度和分配(Scheduling?and?Allocation)、公平性和公平共享(Fairness?and?Fairshare)和預(yù)留策略(Reservation?Policy)。Maui的機(jī)制允許資源和服務(wù)的直接傳遞、策略解除(Policy?Exemption)和指定特征的受限訪問。Maui采用高級(jí)的資源預(yù)留架構(gòu)可以保證精確控制資源何時(shí)、何地、被誰、怎樣使用。Maui的預(yù)留架構(gòu)完全支持非入侵式的元調(diào)度。?Maui的設(shè)計(jì)得益于世界最大的高性能計(jì)算中心的經(jīng)驗(yàn)。Maui本身也提供測試工具和模擬器用于估計(jì)和調(diào)節(jié)系統(tǒng)性能。?
Maui?需要資源管理器與其配合使用。我們可以把Maui想象為PBS中的一個(gè)插入部件。?
總結(jié)
以上是生活随笔為你收集整理的CentOS下torque集群配置(一)-torque安装与配置的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Code pratice】—— 纸牌三
- 下一篇: untiy接入微信SDK实现iOS分享