НОУ ИНТУИТ | Реализация мультипроцессорных кластеров высокой доступности (HACMP). Лекция 7: Обслуживание кластера

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Компания IBM

Опубликован: 01.02.2008 | Доступ: свободный | Студентов: 613 / 22 | Оценка: 4.60 / 4.40 | Длительность: 43:55:00

Темы: Сетевые технологии, Операционные системы, Программирование, Суперкомпьютерные технологии

Специальности: Разработчик аппаратуры

|

Вам нравится? Нравится 13 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Сценарии

В этом разделе мы рассмотрим следующие распространенные сценарии:

"горячая замена" сетевой карты PCI;
загрузка исправлений AIX и HACMP;
замена зеркального диска LVM;
обслуживание приложения.

"Горячая замена" сетевой карты PCI

Этот раздел описывает процесс "горячей замены" (hot-plug replacement) сетевой карты PCI с использованием средства C-SPOC "PCI Hot Plug Replace a Network Interface Card".

Специальные аспекты

При выполнении "горячей замены" сетевой интерфейсной карты PCI необходимо учитывать следующее:

Если сетевой интерфейс, для которого вы выполняете "горячую замену", представляет единственный доступный keepalive-путь на узле, где он находится, вы должны отключить HACMP на этом узле, чтобы не допустить разделение кластера при замене интерфейса. Этого можно избежать при наличии рабочей сети, отличной от IP, между узлами кластера.
SMIT позволяет выполнить постепенное завершение работы (graceful shutdown) на этом узле. При этом можно выполнить "горячую замену" сетевой интерфейсной карты вручную.
Поддерживается "горячая замена" сетевых интерфейсных карт Ethernet, TokenRing, FDDI и ATM. Этот процесс не поддерживается на коммуникационных устройствах, отличных от IP.
Следует вручную записать параметры IP-адреса для сетевого интерфейса, для которого выполняется замена, чтобы подготовиться к незапланированным отказам. Не следует пытаться изменять какие-либо параметры конфигурации в ходе выполнения "горячей замены".

SMIT-интерфейс упрощает процесс "горячей замены" сетевой интерфейсной карты PCI. HACMP поддерживает одновременное выполнение "горячей замены" только для одной сетевой карты PCI на узле.

Примечание. Если сетевой интерфейс был в рабочем состоянии до начала процесса замены, то между началом и завершением "горячей замены" интерфейс, для которого выполняется замена, находится в режиме обслуживания. На это время приостанавливается мониторинг связи в сети, пока не будет завершен процесс замены.

Сценарий 1 (только для работающих NIC)

Необходимо следовать приведенной ниже процедуре при "горячей замене" таких компонентов, как:

работающий сервисный сетевой интерфейс PCI в группе ресурсов с доступным несервисным интерфейсом;
работающий сервисный сетевой интерфейс PCI не в группе ресурсов с доступным несервисным интерфейсом;
доступный загрузочный сетевой интерфейс PCI с доступным несервисным интерфейсом.

Перейдите на узел, на котором требуется выполнить "горячую замену" сетевой интерфейсной карты PCI.
Введите smit hacmp.
В SMIT выберите System Management (C-SPOC) > HACMP Communication Interface Management (Управление коммуникационными интерфейсами HACMP) > PCI Hot Plug Replace a Network Interface Card (Горячая замена сетевой интерфейсной карты PCI) и нажмите Enter. К этой панели также можно перейти с использованием быстрого пути smitty cl_pcihp. SMIT отображает список доступных сетевых интерфейсов PCI с возможностью "горячей замены".
Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену". Нажмите Enter. Сервисный адрес интерфейса PCI переносится на доступный несервисный интерфейс.
SMIT предложит физически заменить сетевую интерфейсную карту. После замены карты система запросит подтверждения выполнения замены.

Если вы выберете Yes (Да), сервисный адрес будет перенесен обратно на сетевой интерфейс, для которого была выполнена "горячая замена". В сетях с синонимами сервисный адрес не будет перенесен обратно на первоначальный сетевой интерфейс, а останется синонимом на том же сетевом интерфейсе. "Горячая замена" завершена.

Если вы выберете No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:

выполните команду drslot, чтобы вывести PCI-слот из удаленного состояния (removed state);
выполите mkdev на физическом интерфейсе.
используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev, чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса.

Сценарий 2 (только для работающих NIC)

При "горячей замене" работающего сервисного сетевого интерфейса PCI в группе ресурсов без доступного несервисного интерфейса необходимо следовать приведенной ниже процедуре. Действия пп. 1–3 совпадают с предыдущим сценарием, так что в этом сценарии мы начинаем с быстрого пути smitty cl_pcihp.

Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену", и нажмите Enter. SMIT предложит указать, следует ли перемещать группу ресурсов на другой узел в процессе замены, чтобы обеспечить ее доступность.
Если вы укажете, что это нужно сделать, SMIT предложит переместить группу ресурсов обратно на узел, на котором произошла "горячая замена" после завершения процесса замены. Если вы не переместите группу ресурсов на другой узел, он будет отключен в продолжение процесса замены.
SMIT предложит физически заменить сетевую интерфейсную карту. После замены карты система запросит подтверждения выполнения замены. Если вы выберите Yes (Да), "горячая замена" будет завершена. Если вы выберите No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:
1. выполните команду drslot, чтобы вывести PCI-слот из удаленного состояния (removed state);
2. выполите mkdev на физическом интерфейсе;
3. используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev, чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса;
4. (если применимо) переместите группу ресурсов обратно на узел, с которого он был перемещен на этапе 2.

Сценарий 3 (только для неработающих NIC)

Необходимо следовать приведенной ниже процедуре при "горячей замене" таких компонентов, как:

неработающий сервисный сетевой интерфейс PCI в группе ресурсов с доступным несервисным интерфейсом;
неработающий сервисный сетевой интерфейс PCI не в группе ресурсов с доступным несервисным интерфейсом;
неработающий загрузочный сетевой интерфейс PCI с доступным несервисным интерфейсом.

Как и в предыдущем сценарии, мы снова начинаем с быстрого пути smitty. cl_pcihp.

Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену", и нажмите Enter. SMIT предложит физически заменить сетевую интерфейсную карту.
После выполнения физической замены SMIT запросит подтверждение выполнения замены. Если вы выберете Yes (Да), "горячая замена" будет завершена. Если вы выберете No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:
1. выполните команду drslot, чтобы вывести PCI-слот из удаленного состояния (removed state);
2. выполите mkdev на физическом интерфейсе;
3. используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev, чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса.

"Горячая замена" сетевой интерфейсной карты ATM

Сетевые интерфейсные карты ATM поддерживают использование нескольких логических интерфейсов на одной сетевой интерфейсной карте. "Горячая замена" сетевого интерфейса ATM выполняется так же, как и для других сетевых интерфейсных карт, за исключением следующего:

Все логические интерфейсы на заменяемой карте, не сконфигурированные для замены и управляемые HACMP, утрачиваются в процессе замены. Они не будут повторно сконфигурированы на новой установленной интерфейсной карте ATM. Все остальные логические интерфейсы на заменяемой сетевой интерфейсной карте ATM, сконфигурированные для замены и управляемые HACMP, восстанавливаются после завершения замены.
Так как на сетевой интерфейсной карте ATM можно сконфигурировать несколько сервисных интерфейсов, а значит, и несколько групп ресурсов для одного сетевого интерфейса ATM, то при "горячей замене" сетевой интерфейсной карты ATM, через SMIT выполняется процесс поочередного перемещения каждой группы ресурсов на интерфейсе ATM.

Исправления

Этот раздел описывает установку исправлений (APAR/PTFS) как в AIX, так и в HACMP. Мы рекомендуем загружать исправления и осуществлять обслуживание ежеквартально. Однако опрос клиентов показывает, что чаще эти операции выполняются два раза в год в сезоны отпусков. В некоторых случаях приходится отклоняться от стандартной практики при возникновении серьезных проблем.

Некоторые исправления AIX можно загружать динамически без перезагрузки системы. Обновления ядра и драйвера устройств часто требуют перезагрузки, так как при их установке запускается bosboot. Чтобы определить, необходима ли перезагрузка системы, следует просмотреть файл .toc, создаваемый командой inutoc перед установкой исправлений. Файл содержит информацию о наборах файлов (filesets), подобную представленной в примере 7.1.

bos.64bit	5.3.0.0	i, b, usr, root
# base operating system 64 bit Runtime
bos.INed	5.3.0.0	i, b, usr, root
#	INed Editor

Пример 7.1. Просмотр файла .toc перед установкой исправлений

В приведенном примере набор файлов bos.64bit требует перезагрузки, на что указывает символ b в четвертом столбце. Символ N указывает на то, что перезагрузка необязательна.

Применение исправлений HACMP подобно применению исправлений AIX. Наборы файлов, подлежащие обновлению, указывают, необходимо ли выполнять перезапуск кластера с использованием метода, указанного выше. Если есть неуверенность в последствиях загрузки тех или иных исправлений, следует проконсультироваться с группой поддержки.

При обновлении программного обеспечения AIX или HACMP рекомендуется выполнить следующие действия:

Создать снимок кластера и сохранить его вне кластера.
Выполнить резервное копирование операционной системы и данных до выполнения обновления. Подготовьте план возврата в случае возникновения проблем при обновлении.
Всегда выполняйте первый запуск в тестовом кластере.
Если возможно, используйте обновление дисков.
Следуйте этим же общим правилам при применении исправлений приложения;
следуйте также указаниям для приложения.

Общая процедура применения исправлений AIX и HACMP имеет следующий вид:

Примените (apply), не фиксируя (commit), APAR на дежурном узле (standby node).
Выполняйте перемещение при сбое (постепенную остановку с переносом ресурсов, graceful shutdown with takeover) на дежурном компьютере (standby machine).
Примените (apply) APAR на основном узле (primary node).

Перед применением исправлений на дежурном узле (standby node) необходимо остановить службы кластера. После применения исправлений при необходимости нужно перезагрузить узел. Для реинтеграции узла в кластер в качестве дежурного узла следует перезапустить службы кластера.

Для того чтобы применить исправления на рабочих узлах, следует выполнить постепенную остановку служб кластера с переносом ресурсов (gracefully with takeover). После завершения переноса ресурсов службы кластера должны продолжить процесс остановки. После полной остановки служб кластера следует применить исправления, при необходимости перезагрузить узел и перезапустить службы кластера. В зависимости от политики перемещения при сбое для группы ресурсов, при реинтеграции узла в кластер, он может "подхватить" ресурсы. Если этого не произошло, можно использовать C-SPOC для перемещения группы ресурсов обратно на первоначальный узел.

Дальше >>

Авторизоваться

Реализация мультипроцессорных кластеров высокой доступности (HACMP)

Обслуживание кластера

Сценарии

"Горячая замена" сетевой карты PCI

Исправления

Вопросы и ответы