Новости
  Техническое оснащение
  Linux кластер
  Статистика использования ресурсов
  Регистрация на Linux кластере
  Регистрация на SPP-2000
  Файловая система AFS
  Вопросы безопасности в сети
  Библиотеки
  Программное обеспечение SPP 2000
  Вопросы распараллеливания
  Руководство для пользователей
  Практические рекомендации
  Контакт
  Ссылки
  Главная

Руководство пользователя параллельного вычислительного кластера.


С 10 декабря 2002 года в ЛИТ введен в эксплуатацию вычислительный кластер для параллельных вычислений, состоящий из восьми 2-х процессорных узлов, III 1GHz, 512MB RAM, соединенных коммуникационной средой Myrinet 2000.

Использование

Доступ к кластеру производится через интерактивные машины: lxpub01 -√04, на которых задачи компилируются и отлаживаюся.

Компиляция

 На данный момент на интерактивных машинах доступна компиляторы: mpicc, mpif77.
В перспективе планируется также обеспечить использование mpiCC и mpiF90, которые на данный момент недоступны по техническим причинам.

Запуск

После компиляции задачи ставятся в очередь. Для этого используется комманда qsub. Существует 2 способа использования этой команды:

1) создать script, в котором определить параметры, необходимые для работы задачи;

Пример командной строки
                           qsub pbs_script

Пример содержания pbs_script:
#!/bin/sh
#PBS -q para
#PBS -l walltime=10:00:00,nodes=8:para
#PBS -m abe
#PBS -M username@lxpub01
#PBS -r n
mpiexec $PBS_O_WORKDIR/program_name

2) ввести все параметры в командной строке.

Пример командной строки:
qsub √q para -l walltime=10:00:00,nodes=8:para -m abe -M username@lxpub01 -r n mpiexec $PBS_O_WORKDIR/program_name

Описание параметров:

-q название очереди (для параллельных вычислений это "para")
-l набор технических параметров через ","
-walltime максимальное время выполнения
-nodes количество процессоров (в конце после ":" название очереди)
-m события, о которых следует извещать email'ом:
b - начало, e - завершение, a - прекращение работы по ошибке
-M e-mail адрес, на который направляются все служебные сообщения о состоянии задачи
-r(y/n) следует ли восстанавливать задачу, при перезагрузке узлов

Контроль задачи

После того, как задача была отправленна в очередь, ее состояние можно контролировать с помощью комманды qstat , после ввода которой на экране появляется таблица, столбцы которой имеют следующие значения:

Job id уникальный идентификатор задачи
Name имя исполняемой задачи
Userимя владельца задачи
Time Use общее процессорное время, использованное задачей на данный момент
Sсостояние задачи (Q - находится в очереди, R - вычисляется, E - произошла ошибка при выполнении
Queue название очереди, в которую запущена задача

Результаты

В рабочей дирректории появляются 2 файла:
- Имя_задачи.oИдентификатор      cодержит стандартный вывод (stdout),
- Имя_задачи.eИдентификатор       содержит сообщение об ошибках (strerr)