Базовый Linux кластер ЛИТ

 Логическая структура

 Аппаратный состав

 Основное программное обеспечение

 Основные правила работы на кластере


Логическая структура кластера

- Все компоненты являются взаимосвязанной структурой

- Аппаратная и программная структура требует наличия хотя бы нескольких элементов каждой части кластера в рабочем состоянии

Интерактивный кластер

     * lxpub01 -:- lxpub04

     * вскоре получит общее имя - cv

     * единое и единственное место для всей интерактивной деятельности пользователей

     * все сетевые интерфейсы для пользователей, в том числе и рабочая версия GRID

Вычислительная ферма общего назначения

     * lxit01 -:- lxit08

     * выполнение пакетных заданий (batch) для большинства пользователей

Вычислительная ферма для БАК (LHC)

     * lhc001 -:- lhc016

     * выполнение пакетных заданий (batch) коллабораций БАК

     * то же для остальных пользователей при отсутствии основной загрузки

Вычислительная ферма параллельных вычислений

     * myrc01 -:- myrc08

     * выполнение пакетный заданий (batch) для задач параллельных вычислений

     * то же для остальных задач и пользователей при отсутствии основной загрузки

Серверы AFS, NFS, WWW, FTP, SMTP, IMAP, POP

     * поддержка работы всех остальных частей кластера PC/Linux

''  Вернуться в начало


Аппаратный состав кластера

     - Интерактивный кластер
        четыре  2-х процессорных пентиум III 1GHz,
      512MB RAM

     - Вычислительная ферма общего назначения
        восемь  2-х процессорных пентиум III 500MHz,
      512MB RAM

     - Вычислительная ферма БАК
        шестнадцать  2-х процессорных пентиум III 1GHz,
      512MB RAM

      - Вычислительная ферма параллельных вычислений
        восемь  2-х процессорных пентиум III 1GHz,
      512MB RAM, Marynet

     - 3 сервера с общим дисковым пространством 4 TB с аппаратным RAID-5,
       реально доступно ~3.5 TB

      - 100 Mbit Ethernet на отдельной подсети

''  Вернуться в начало


Основное программное обеспечение

     - ОС RedHat Linux 6.2
      на всех машинах, кроме фермы параллельных вычислений

     - ОС RedHat Linux 7.2.1-CERN
       на ферме параллельных вычислений

     - SuSE 7.3 и RedHat Linux 7.2.1-CERN
       на серверах

     - Планируется переход на RedHat Linux 7.2.1-CERN (7.3.1-CERN),
      или разделение аппаратных ресурсов

      - Графическая оболочка XFree86
       на интерактивном кластере, не используется на вычислительных фермах

     - Поддержка "рабочего стола" Gnome и KDE

     - Большая часть ПО ASIS, включая CERN library

     - Трансляторы C, C++, F77,
      в вариантах от RedHat, и от CERN ASIS (рекомендуется последний)

     - Система пакетной обработки (batch) PBS

     - Компоненты Data Grid (в ближайшее время)

     - Необходимый набор инструментального ПО пользователя, редакторы, отладчики,
       WWW, e-mail и тому подобное

     - Дополнительное ПО будет устанавливаться по запросам пользователей кластера

     - Специфическое ПО для участников различных коллабораций

''  Вернуться в начало


Основные правила работы на кластере

 Регистрация пользователей

 Правила входа в машины кластера

 Интерактивная работа

 Пакетная обработка (batch)

 Почтовые сервисы (e-mail)

 Дисковое пространство

Регистрация пользователей:

     * все пользователи кластера должны быть зарегистрированы в afs

     * все пользователи, зарегистрированные в afs в других лабораториях должны быть зарегистрированы и в локальных базах (/etc/passwd) на кластере, для получения возможности реальной работы в интерактиве или с пакетными заданиями

      * afs пароль можно поменять на любой из машин кластера командой kapasswd (passwd), сразу после изменения AFS пароля, введите также комаду "pbspwstore" для работы с batch (PBS) в AFS

      * все пользователи машины "cv", которые выполнят 2 предыдущих пункта, смогут получать и отправлять свою электронную почту без всяких изменений

     * все остальные бывшие пользователи машины "cv", могут обратиться в ЛИТ для переадресации приходящей почты на их адрес вида - user@cv.jinr.ru, на другой адрес

     * ВНИМАНИЕ, все остальные бывшие пользователи машины "cv", не обратившие внимания на предущие 4 пункта, перестанут получать электронную почту на адрес вида - user@cv.jinr.ru

''  Вернуться в начало    К оглавлению "Основных правил работы"

Правила входа в машины кластера:

     * после закрытия машины "cv.jinr.ru", ее имя и адрес перейдет к интерактивному кластеру lxpub01 -:- lxpub04 с равномерным распределением загрузки между этими машинами

     * во всех случаях при входе будет запрашиваться AFS пароль

     * интерактивная работа разрешена только на машинах lxpub01 -:- lxpub04

     * интерактивный вход пользователей запрещен на все вычислительные фермы и серверы

     * при наличии возможности, следует использовать ssh/scp/sftp

     * входить на кластер можно по ssh, xdm (с X-терминалов, или своих рабочих станций),
telnet, rsh - для интерактивной работы

     * для перекачки файлов можно использовать scp, sftp, ftp

     * для входа по ssh/scp/sftp желательно использовать RSA или host идентификацию без пароля, с помощью файлов .ssh/authorized_keys, или .shost

''  Вернуться в начало    К оглавлению "Основных правил работы"

Интерактивная работа:

     * рекомендуется использовать локальный xterm и запускать ssh из этого локального xterm'а на машины cv.jinr.ru: xterm -e ssh cv.jinr.ru

     * под интерактивной работой понимается любая работа пользователя, при которой запускаемые им процессы потребляют не более 100% мощности одного процесса не более 15 минут непрерывно

     * рекомендуется запускать трасляции больших (учитывая предыдущий пункт) пакетов программ в пакетном режиме

     * если пользователь не выполняет вышеперечисленных требований, то процессы запущенные от него на интерактивном кластере будут остановлены

''  Вернуться в начало    К оглавлению "Основных правил работы"

Пакетная обработка (batch):

     * пользователи не будут иметь возможности интерактивного входа на вычислительных фермах

     * основное дисковое пространство является общим для всех машин интерактивного кластера и всех машин вычислительных ферм

     * /tmp, /var/tmp, /scr директории являются локальными на каждой отдельной машине

     * при изменении своего AFS пароля, не забудьте внести эти изменния и для batch командой pbspwstore

     * большинство пользователей кластера должны запускать задание в пакетную обработку командой:
           qsub script-file

     * пользователи из коллабораций БАК должны запускать задание в пакетную обработку командой:
          qsub -q prod -l nodes=1:prod

     *для запуска заданий с параллельными вычислениями, используйте команду:
          qsub -q para -l nodes=:para

''  Вернуться в начало    К оглавлению "Основных правил работы"

Почтовые сервисы (e-mail):

     * почтовая служба настроена и работает таким образом, что отправка писем производится непосредственно с любой из машин интерактивного кластера

     * почтовая служба настроена и работает таким образом, что все внешние письма приходят только на один из серверов кластера

     * для чтения и отправки электронной почты на интерактивном кластере используйте программу "pine"

     * "pine" настроен на автоматическое получение почты по imap с заданного сервера, если настройки pine случайно потерялись, то можно удалить файл .pinerc для правильной их установки при следующем запуске pine

     * для чтения почты, приходящей на кластер, на своей рабочей станции рекомендуется использовать netscape (mozilla), определив IMAP сервер - lxmx00.jinr.ru

     * после закрытия машины "cv.jinr.ru" ее адреса, в том числе и почтовый, перейдут к интерактивному кластеру, таким образом, что, если пользователь зарегистрировался на кластере, этот переход будет для него практически не заметен

''  Вернуться в начало    К оглавлению "Основных правил работы"

Дисковое пространство:

     * для большинства пользователей кластера доступны следующие виды дискового пространства:
его домашняя директория в AFS, scratch (/scrr), общие для всех машин и интерактивного кластера и вычислительных ферм;
локальные директории /tmp, /scr для хранения промежуточных данных задачи или сеанса работы

     * для пользователей крупных коллабораций обычно доступно специально выделенное дисковое пространство, также общее для всех машин кластера

     * AFS имеет специфическую систему квот

     * квоты в scratch дисковом пространстве имеют 2 категории:
жесткую (обычно несколько GB), и мягкую - до 1GB,
превышение мягкой квоты до размеров жесткой возможно, но только в пределах ограниченного времени (2 недели), после чего запись в scratch блокируется

     * /tmp, /scr директории очищаются полностью при любой перезагрузке машины, а также регулярно очищаются от старых файлов

     * системные службы ЛИТ будут вести регулярное резервное копирование AFS дискового пространства, и директорий, выделенных для ПО коллабораций

     * проводятся работы по подключению ленточного робота (~5TB) к кластеру и установке ПО Castor для работы с ним

     * по запросу пользователей возможна перепись лент формата DLT-4000

''  Вернуться в начало    К оглавлению "Основных правил работы"