Главная Технология Двухконтроллерное решение AVRORA 2.0

Двухконтроллерное решение AVRORA 2.0

AVRORA 2.0 в  двухконтроллерном режиме работы представляет собой кластерное решение, благодаря чему обеспечивается высокая отказоустойчивость и надежность. Аппаратные и программные компоненты в данном решении зарезервированы. Рекомендуется использовать для работы с транзакционными системами, которые предъявляют высокие требования к надежности и непрерывности работы, например, БД, виртуальные машины, критичные бизнес-приложения.

Отказоустойчивость обусловлена особенностями конфигурации СХД на основе ПО AVRORA 2.0 с двухконтроллерным режимом работы, которая представляет собой кластер высокой готовности: два узла, имеющие доступ к одному и тому же хранилищу данных.

Узлы – аппаратно-независимые компоненты системы хранения данных, которые имеют собственные процессоры, кэш-память, материнскую плату и которые объединены в кластер высокой готовности. Узлы кластера находятся под управлением ПО AVRORA 2.0.

Контроллеры узлов взаимодействуют между собой посредством интерфейса Fibre Channel, что позволяет производить синхронизацию данных и состояния кэшей.

Узлы работают в режиме Active-Passive (активный-пассивный): только один из узлов может быть активным (Active Node), другой − находится в режиме ожидания (Passive Node). Благодаря наличию синхронизации, узел, находящийся в режиме ожидания, в любой момент времени содержит «слепок» конфигурации и данных активного узла. Таким образом, при выходе из строя активного узла пассивный − прозрачно для пользователя берет на себя всю нагрузку, предоставляя тем самым возможность администратору заменить неисправное устройство без остановки работы системы.

Аппаратно такая конфигурация может представлять собой два независимых сервера, подключенных к внешней дисковой полке (JBOD), или единый корпус с двумя материнскими платами и общим набором дисков.

В решении AVRORA 2.0 предусмотрена защита от порчи данных в следствие одновременной работы с ними обоих узлов (ситуация split-brain). Это обеспечивается благодаря следующим механизмам:

  1. Heartbeat
    • узлы по выделенному Ethernet-каналу обмениваются информацией о работоспособности
    • каждый узел обращается к метаданным на дисках для проверки, не осуществляется ли в текущий момент времени запись на диски другим узлом
  2. Асинхронная запись на диски
    Запись выполняет только активный узел, пассивный считывает и проверяет, что RAID-массив создан.

Помимо кластерной архитектуры и дублирования основных компонентов, отказоустойчивость решения обусловлена схемой синхронизации кэша: для каждого RAID-массива активного узла создается резервная копия на пассивном, и ответ на запросы (команды) пользователей поступают лишь тогда, когда данные были помещены в кэш пассивного узла.

В конфигурации AVRORA 2.0 предусмотрено дублирование основных аппаратных компонентов и интерфейсов подключения:

  • дублирование узлов (несколько материнских плат, модулей кэш-памяти, блоков питания, SAS-контроллеров, FC-контроллеров, системных дисков)
  • дублирование каналов подключения к дискам (оба узла подключены к единому набору дисков)
  • дублирование каналов подключения к СХД (сервера подключаются к СХД одновременно по нескольким каналам)

Высокая степень отказоустойчивости решения AVRORA 2.0 гарантирует доступ к данным и непрерывность бизнес-процессов. Дублирование аппаратных компонентов и интерфейсов обеспечивает защиту от следующих сбоев:

  • выход из строя одного из аппаратных компонентов (процессора, материнской платы, блока питания, контроллера, системного диска)
  • отказ интерфейса подключения к дисковым полкам (отказ SAS-кабеля, I/O- модуля)
  • отказ интерфейса подключения серверов
  • отказ интерфейса подключения сервера + сбой, возникновение ошибок в ПО на одном из узлов.

При выходе из строя одного из узлов происходит автоматическое переключение на второй узел, который благодаря наличию синхронизации всегда содержит актуальную копию конфигурации и данных активного устройства. При выходе из строя одного из интерфейсов подключения к дискам или к серверам также происходит автоматическое переключение на предусмотренный отказоустойчивой конфигурацией резервный интерфейс.