반응형 전체 글176 pbs 재시작 안 될 때 해결방법 // 위에 3개의 작업 kill 후 pbs 재시작 ps -ef | grep pbs root 13402 1 0 00:18 ? 00:00:00 /opt/pbs/sbin/pbs_comm root 13417 1 0 00:18 ? 00:00:00 /opt/pbs/sbin/pbs_sched root 13802 1 0 00:18 ? 00:00:00 /opt/pbs/sbin/pbs_server.bin mgmt# kill -9 13402 13417 13802 mgmt# systemctl restart pbs 2022. 3. 8. pbs 큐 사용 못하게 막은 PBS 큐 작업 원복 // 큐 작업 실행하게 바꾸기 # qmgr -c "set queue workq started += True" // workq 큐 상태 확인 # qmgr -c "p q workq" set queue workq enabled = True set queue workq started = True 2022. 3. 8. PBS 큐 작업 실행 못하게 막기 // 큐 작업 실행 못하게 막기 # qmgr -c "set queue workq enabled -= True" // workq 큐 상태 확인 # qmgr -c "p q workq“ set queue workq enabled = False 2022. 3. 8. PBS 작업 offline으로 막은 노드사용 가능하게 원복하기 // free 상태로 변경 # pbsnodes –r comp // 확인 # pbsnodes -v comp comp Mom = comp Port = 15002 pbs_version = 19.1.2 ntype = PBS state = free 2022. 3. 8. PBS 특정 계산노드만 사용하지 못하게 막기 큐 작업이 특정 계산노드에만 많은 작업이 수행되어 시스템 과부화 현상이 일어났을 때 큐 작업을 막는 방법이 있습니다. (이미 수행중인 큐 작업은 수행이 되지만 그 후에는 더 이상 offline 걸은 노드에 작업이 실행되지 않습니다.) // offline으로 만들기 # pbsnodes –o comp // 노드 상태 확인 # pbsnodes -v comp comp Mom = comp Port = 15002 pbs_version = 19.1.2 ntype = PBS state = offline 2022. 3. 8. pbs 자주 사용하는 큐 명령어 // 큐별 전체 상태 확인 mgmt# qstat -Q // 큐 작업 상태 확인 mgmt# qstat // 큐 작업 완료된 작업까지 확인 mgmt# qstat –x // 큐 작업 상세하게 확인 mgmt# qstat –s1 // 큐 작업이 어떻게 수행되는지 상세하게 확인 mgmt# qstat –xf 3.mgmt // 큐 작업 삭제 mgmt# qdel 3.mgmt // 큐 작업 강제 삭제 mgmt# qdel –W force 3.mgmt // 수행중인 큐 작업 다른노드로 실행 mgmt# qrerun 3.mgmt // 수행중인 큐 작업 다른노드로 강제 실행 mgmt# qrerun –W force 3.mgmt // 큐 작업 수행하기 mgmt# qsub 3.mgmt // 큐 시스템 스케쥴링 확인 mgmt# qmgr .. 2022. 3. 8. pbs 수행중인 사용자들 큐 작업 스크립트 내용확인 실행파일의 스크립트 내용은 볼 수 없으며, 큐에 문제가 있다고 판단이 되면 printjob 명령 어를 통해 스크립트를 확인해서 분석하여 원인을 발견할 수 있습니다. # printjob –s 3.mgmt --------------------------------------------------- Jobscript for jobid:3.mgmt --------------------------------------------------- #!/bin/sh #PBS -V #PBS -q workq #PBS -N openmp_job #PBS -l select=1:ncpus=1 #PBS -l walltime=04:00:00 for N in 1 2 3 4 5 6 do echo $N done sleep 10000; 2022. 3. 8. pbs 수행중인 큐 작업 로그 확인하기 # tracejob 803215.mgmt 03/02/2022 14:24:44 L Considering job to run 03/02/2022 14:24:44 S Job Queued at request of ymm@client, owner = ymm@client, job name = openmp_job, queue = workq 03/02/2022 14:24:44 S Job Run at request of Scheduler@mgmt on exec_vnode (comp:ncpus=1) 03/02/2022 14:24:44 L Job run 03/02/2022 14:24:44 S enqueuing into workq, state 1 hop 1 03/02/2022 14:24:44 A queue=workq 03/0.. 2022. 3. 8. 자주 사용하는 GPFS 명령어 GPFS 명령어 - mmls (로 시작 되는 명령어는 확인하는 명령어 입니다.) mmcr (로 시작 되는 명령어는 생성하는 명령어 입니다.) mmch (로 시작 되는 명령어는 변경하는 명령어 입니다.) # mmlscluster 명령어 GPFS 클러스터에 대한 현재 구성 정보를 확인합니다. # mmlsnsd mmlsnsd 명령을 사용하여 GPFS 클러스터에 속한 NSD의 현재 정보를 표시합니다. # mmgetstate mmgetstate 명령은 지정된 노드에 GPFS 데몬의 상태를 표시합니다. # mmstartup -a GPFS 클러스터의 모든 데몬을 시작합니다. # mmstartup –N node GPFS 해당노드 하나만 데몬을 시작합니다. # mmshutdown –a GPFS 클러스터의 모든 노드의 G.. 2022. 3. 8. 이전 1 2 3 4 ··· 20 다음 반응형