Systém PBS na farmě goliáš Jan Švec
Systém PBS (1) ● Portable batch system – e.pdf ● tři základní komponenty: – PBS server – PBS mom – PBS scheduler ● dočasné (scratch) adresáře na worker nodech – > přenos pomocí scp na storage (input, output, error)
Systém PBS (2) ● OpenPBS > LCG – PBS server – ce.farm.particle.cz – PBS moms – golias28 – golias30 ● PBSPro > zbytek farmy – PBS server – golias.farm.particle.cz – PBS moms – golias01 – golias24
Struktura PBS na goliáši ● řazení podle priorit – funguje na nově spouštěné joby – zatím nefunguje checkpointing ● 6 front – obecné ● shortq ● normalq ● longq – pro daný experiment ● d0 ● atlas ● alice
Management jobů ● qsub - zadání jobu ● qdel - smazání jobu ● qstat - přehled běžících jobů ● qalter - modifikace parametrů jobu ● qorder - přehození jobů ve frontě ● qmove - přesunutí jobu do jiné fronty ● qhold/qrls -h - pozastavení/uvolnění jobu
xpbsmon
xpbs
Příklad zadání jobu 1) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe \ -q shortq /home/svecj/jobs/pokus1.sh 2) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe \ -q shortq -l nodes=4:giga:ppn=5:cpp=2 ~/jobs/pokus1.sh – ppn != processors per node ale processes per node – cpp=1 => 1 proces použije 1 CPU (1 proces může běžet 1 thread) – všechny vlastnosti jsou globálně nadefinovány ve frontách
Zjišťování informací o jobech (1) – příkaz qstat – stavy jobu: E-exiting, H-held, Q-queued, R-running, W- waiting for time, S-suspended – qstat -Q (příp. -Qf) - vypíše fronty, jejich vlastnosti a status – qstat -f - vypíše podrobnosti o jobu – qstat -u - vypíše joby daného uživatele – qstat -n - vypíše informace o přiřazení nodů jobům – volby je možno kombinovat: ● qstat -u aliprod -n - vypíše obsazení nodů joby uživatele aliprod
Zjišťování informací o jobech (2) pbs]$ qstat Job id Name User Time Use S Queue golias spustpok1 srbekj 00:00:20 R long golias cond_0.0_0.0_10 strizenec 113:09:5 S longq golias cond_0.0_0.0_10 strizenec 112:44:1 S longq golias cond_0.0_0.0_10 strizenec 111:59:5 S longq golias cond_0.0_0.0_10 strizenec 111:25:0 S longq golias cond_0.0_0.0_10 strizenec 86:39:58 S longq golias spust.rsd_test smolik 23:09:17 S longq golias spust.rsd_test smolik 21:53:32 S longq golias d0job15-2 d0mc 11:51:54 R d golias d0job16-2 d0mc 07:12:14 R d golias d0job17-2 d0mc 06:47:42 R d golias d0job18-2 d0mc 03:58:40 R d golias d0job19-2 d0mc 03:57:36 R d golias d0job20-2 d0mc 03:30:50 R d golias spust.rsd_test smolik 03:15:36 R longq golias spust.rsd_test smolik 02:14:29 R longq golias spust.rsd_test smolik 01:48:04 R longq golias spust.rsd_test smolik 01:44:27 R longq golias spust.rsd_test smolik 01:36:42 R longq golias spust.rsd_test smolik 00:55:39 R longq golias spust.rsd_test smolik 00:55:39 R longq golias spust.rsd_test smolik 00:55:38 R longq golias spust.rsd_test smolik 00:53:37 R longq
Děkuji za pozornost