ジョブ管理システム系(TORQUE)


導入

Mac OS X Snow Leopardに導入。
制御ノードと計算機ノードが同じ場合。
コア数は物理コア8、論理コア16。
# sysctl hw.ncpu や system_profiler で調べられる。
まだ、調整中のため不確かな情報含む。

ファイルを落としてコンパイル

rootでmake & make installする。
file=torque-2.5.4
wget http://www.clusterresources.com/downloads/torque/${file}.tar.gz
tar -xzvf ${file}.tar.gz
cd ${file}
./configure --prefix=/opt/local
make
make install

/etc/hostsの書き直し

例えば、
127.0.0.1	localhost
127.0.0.1 localhost YOURNAME-Mac-Pro.local
とする。

各ファイルの設定

サーバーの名前を書く。
/var/spool/torque/server_name
YOURNAME-Mac-Pro.local
ノードの数を書く。
/var/spool/torque/server_priv/nodes
localhost np=16
コア数etcを書く。
/var/spool/torque/mom_priv/config
# $pbsserver localhost
# $max_load 16.0
# $auto_ideal_load t-0.2
# $auto_max_load t-0.2q
$pbsserver localhost
$ideal_load 15.8
$max_load 15.8

試しにサーバー起動etc

pbs_server -t create # 初回起動時は"-t create"が必要。
ps aux | grep pbs # サーバーが起動していることを確認した。
qterm # サーバーを落とした。

server.confの作成

server.confという名前で以下のファイルを作成する。
set server scheduling=true
create queue batch queue_type=execution
set queue batch started=true
set queue batch enabled=true
set queue batch resources_default.nodes=1
# set queue batch resources_max.cput=12:00:00
set queue batch resources_available.nodes=1
set queue batch resources_available.ncpus=16
set queue batch resources_max.nodes=1
set queue batch resources_max.ncpus=4
set server default_queue=batch
set server query_other_jobs=true
create node localhost np=16
もし、 set server query_other_jobs=true がないと
sudo qstat したときのみjobが確認できるようになる模様。

設定の読込み

既存の設定をすべてクリアしてserver.confを読込む。
sudo killall pbs_server
sudo pbs_server -t create
sudo qmgr < server.conf
なお、/var/spool/torque/server_priv/nodes
はqmgrによる設定に伴って自動的に生成される模様。
また、設定内容は
qmgr -c 'p s'
で確認できる。

デーモン群の起動

システムの再起動後、デーモン群を起動するには以下のコマンドを入力すればよい。
sudo pbs_server
sudo pbs_sched
sudo pbs_mom

Open MPIをTorque用に再コンパイル

tm.h の入っている include ディレクトリを
/var/spool/torque へリンクする。
sudo ln -s /opt/local/include/ /var/spool/torque/include
sudo port edit openmpi して ./configure に
--with-tm=/var/spool/torque
を追加する。
sudo port install openmpi したら、
/opt/local/lib/openmpi/bin/ompi_info | grep tm
で正しくインストールされたか確認する。
http://www.open-mpi.org/faq/?category=building#build-rte-tm

Job投入

SINGLE

#!/bin/sh
#PBS -l ncpus=1
#PBS -q batch
#PBS -N test
#PBS -j oe

prog=prog.out

date
cd $PBS_O_WORKDIR
./${prog}
date

MPI

#!/bin/sh
#PBS -l ncpus=8
#PBS -q batch
#PBS -N test
#PBS -j oe

prog=prog.out

date
cd $PBS_O_WORKDIR
export PATH=/opt/local/bin:$PATH
openmpiexec -np 8 ./${prog}
date

TORQUE Resource Manager (OpenPBS) のlinks


その他
http://a98.jugem.jp/?eid=387
http://ubuntuforums.org/showthread.php?t=289767
http://www.kurobuti.com/linuxserver/index.php?option=com_content&view=article&id=18&Itemid=18
http://blog.goo.ne.jp/sdpaninf/e/92b2d2d7b5d4e218cd7f4e962c60ca21
http://www.ep.sci.hokudai.ac.jp/~kodama/tebiki/TEBIKI.kodama-torqur.htm
http://memoro.cocolog-nifty.com/blog/hpc/
http://mps.q.t.u-tokyo.ac.jp/~arai/mpiclub/
http://www.supercluster.org/pipermail/torqueusers/2005-October/002246.html
http://ibio.jp/index.php?torque%C0%DF%C4%EA
http://ubuntuforums.org/showthread.php?t=1512061
# uname -a, hostname hogehoge
http://memorva.jp/memo/linux/dns_hostname.php
http://technical.bestgrid.org/index.php/Auckland_Test_Gateway#Torque_troubleshooting
http://www.rcs.arch.t.u-tokyo.ac.jp/kusuhara/tips/linux/cluster.html
http://sites.google.com/site/khathome/home/torque


最終更新:2012年01月19日 02:35