Руководство пользователя параллельного вычислительного кластера.
С 10 декабря 2002 года в ЛИТ введен в эксплуатацию вычислительный кластер
для параллельных вычислений, состоящий из восьми 2-х процессорных узлов,
III 1GHz, 512MB RAM, соединенных коммуникационной средой Myrinet 2000.
Использование
Доступ к кластеру производится через интерактивные машины: lxpub01 -√04, на которых задачи компилируются и отлаживаюся.
Компиляция
На данный момент на интерактивных машинах доступна компиляторы: mpicc,
mpif77.
В перспективе планируется также обеспечить использование mpiCC
и mpiF90, которые на данный момент недоступны по техническим причинам.
Запуск
После компиляции задачи ставятся в очередь. Для этого используется комманда
qsub. Существует 2 способа использования этой команды:
|
1) создать script, в котором определить параметры, необходимые для работы
задачи; |
Пример командной строки
qsub pbs_script
Пример содержания pbs_script:
#!/bin/sh
#PBS -q para
#PBS -l walltime=10:00:00,nodes=8:para
#PBS -m abe
#PBS -M username@lxpub01
#PBS -r n
mpiexec $PBS_O_WORKDIR/program_name
|
2) ввести все параметры в командной строке. |
Пример командной строки:
qsub √q para -l walltime=10:00:00,nodes=8:para -m abe -M username@lxpub01 -r n mpiexec
$PBS_O_WORKDIR/program_name
Описание параметров:
|
-q | название очереди (для параллельных вычислений это "para") |
-l | набор технических параметров через "," |
-walltime | максимальное время выполнения |
-nodes | количество процессоров (в конце после ":"
название очереди) |
-m | события, о которых следует извещать email'ом:
b - начало, e - завершение, a - прекращение работы по ошибке |
-M | e-mail адрес, на который направляются все служебные
сообщения о состоянии задачи |
-r | (y/n) следует ли восстанавливать задачу, при перезагрузке узлов |
|
Контроль задачи
После того, как задача была отправленна в очередь, ее состояние можно контролировать
с помощью комманды qstat , после ввода которой на экране появляется
таблица, столбцы которой имеют следующие значения:
|
Job id | уникальный идентификатор задачи |
Name | имя исполняемой задачи |
User | имя владельца задачи |
Time Use | общее процессорное время, использованное задачей на данный момент |
S | состояние задачи (Q - находится в очереди, R - вычисляется, E - произошла ошибка при выполнении |
Queue | название очереди, в которую запущена задача |
|
Результаты
В рабочей дирректории появляются 2 файла:
- Имя_задачи.oИдентификатор
cодержит стандартный вывод (stdout),
- Имя_задачи.eИдентификатор содержит
сообщение об ошибках (strerr)
|