Компания IBM
Опубликован: 09.01.2008 | Доступ: свободный | Студентов: 669 / 131 | Оценка: 4.24 / 4.00 | Длительность: 13:17:00
Специальности: Разработчик аппаратуры
Лекция 5:

Reliability, Availability, Serviceability (RAS)

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >

Обнаружение неисправности

  • Light Path Diagnostics – световая дорожка, указывающая на сбойный компонент
  • Панели (LED) на системах и I/O drawer для сообщения информации о состоянии, необходимости вмешательства причине сбоя
  • HMC Service History Log – журнал сбоев и ремонтных воздействий за последние 90 дней
  • Service Focal Point – консолидирование информации об ошибках позволяет избежать ложного появления множественных ошибок (сбойные компоненты в разделах)

Обычно, наличие логических разделов (LPAR) усложняет обслуживание сервера. Для того, что бы приспособить существующие средства диагностики, анализа и восстановления ошибок к работе с логическими разделами, было разработано специальное приложение, устанавливаемое на консоль управления. Это приложение называется Service Focal Point. Оно состоит из менеджеров ресурсов (resource managers), которые ведут наблюдение и записывают информацию о различных объектах системы. SFP сортирует и коррелирует информацию от менеджеров ресурсов и в случае необходимости инициирует звонок сервисному провайдеру. Оно так же имеет пользовательский интерфейс, через который можно просмотреть информацию о произошедших событиях и выполнить необходимые действия. После устранения проблемы, пользователь может записать последовательность действий, которую он выполнил. Эти данные в дальнейшем будут доступны представителям сервисного провайдера для того, чтобы определить какие действия предпринимались и соответственно скорректировать свои действия.

Light Path Diagnostics – это уникальная разработка IBM, которая позволяет сервисному инженеру или системному администратору легко и быстро обнаружить вышедший из строя компонент системы. Когда происходит тот или иной сбой в системе, то на специальной панели загорается индикация, говорящая о наличии неисправности. Внутри сервера расположена основная светодиодная панель, на которой будет зажжен индикатор, соответствующий конкретному компоненту системы. Корзины ввода/вывода так же имеют светодиодные индикаторы, которые позволяют точно определить PCI слот, в котором установлен вышедший из строя адаптер.

Electronic service agent

  • ПО для автоматизированного техобслуживания и повышения доступности системы
  • Бесплатная опция при контракте на техобслуживание
  • Проактивный предсказательный анализ сбоев и оповещение

Сервисный агент состоит из 2 основных компонентов. Клиентская часть устанавливается на все копии операционной системы и наблюдает за ее состоянием. Она ведет наблюдение и анализирует все исправимые ошибки и при необходимости отправляет запрос на обслуживание SFP приложению.

Вторая составляющая сервисного агента – это шлюз, который устанавливается на консоль управления как часть SFP приложения и формирует как бы фокусную точку, в которой собирается вся необходимая информация для "звонка домой*quot;. Таким образом, уменьшается время простоя из-за отказа одного из компонентов системы, так как сервисному провайдеру предоставляется доступ к отчетам об ошибках, а также есть возможность заказать необходимые компоненты для замены прежде, чем сервисный инженер выедет на место. Следовательно, возможность неверного истолкования или недопонимания при выявлении ошибки исключается.

RAS в системах p5


В системах на базе POWER5 появились такие дополнительные возможности, как резервирование сервисного процессора или замена I/O Drawer "на лету".

Встроенное программное обеспечение (firmware) записывается в двух копиях – Permanent и Temporary. При обновлении firmware нет необходимости в долговременном отключении системы – одна часть обновляется, в то время, как работа идет со второй частью. Для активизации достаточно перезагрузки.

В случае некорректного обновления firmware можно загрузиться с оставшейся копии.

Выбор firmware при загрузке определяется через сервисный процессор.

RAS – общая картина


Надежность – один из важнейших факторов в производстве продукции класса hi-end. Технология RAS – неотъемлемая часть серверов pSeries и ОС AIX. Ее развитие начинается с создания архитектуры. Затем продолжается на стадиях разработки рабочего проекта и самого продукта, где идеи RAS еще раз пересматриваются, оцениваются и совершенствуются. Им следуют в процессе изготовления и выпуска серверов, когда качество находится под строгим контролем. И завершается в процессе обслуживания и технической поддержки, когда за надежностью сервера постоянно следят и когда проблемы, возникающие у заказчика, направляются по адресу.

Итоги

Компоненты Reliablity, Availability, Serviceability:

  • Замена в "горячем" режиме
  • Избыточность
  • Блокирование сбойных ресурсов
  • Диагностика сбоев в момент их появления
  • Предотвращение сбоев
< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Александр Панченко
Александр Панченко

Добрый день,

Я прошёл платный курс по программе «Архитектурные решения на базе аппаратных платформ IBM» получил диплом №ПК 100848460.

Как мне получить его ? Вы отправите его почтой ?

Вадим Арзуманян
Вадим Арзуманян
Россия, Москва
Петр Арсенин
Петр Арсенин
Россия, Москва