-
AVRORA 2.0
Отказоустойчивый кластер с рекордной производительностью
Двухконтроллерное решение AVRORA 2.0
AVRORA 2.0 в двухконтроллерном режиме работы представляет собой кластерное решение, благодаря чему обеспечивается высокая отказоустойчивость и надежность. Аппаратные и программные компоненты в данном решении зарезервированы. Рекомендуется использовать для работы с транзакционными системами, которые предъявляют высокие требования к надежности и непрерывности работы, например, БД, виртуальные машины, критичные бизнес-приложения.
Отказоустойчивость обусловлена особенностями конфигурации СХД на основе ПО AVRORA 2.0 с двухконтроллерным режимом работы, которая представляет собой кластер высокой готовности: два узла, имеющие доступ к одному и тому же хранилищу данных.
Узлы – аппаратно-независимые компоненты системы хранения данных, которые имеют собственные процессоры, кэш-память, материнскую плату и которые объединены в кластер высокой готовности. Узлы кластера находятся под управлением ПО AVRORA 2.0.
Контроллеры узлов взаимодействуют между собой посредством интерфейса Fibre Channel, что позволяет производить синхронизацию данных и состояния кэшей.
Узлы работают в режиме Active-Passive (активный-пассивный): только один из узлов может быть активным (Active Node), другой − находится в режиме ожидания (Passive Node). Благодаря наличию синхронизации, узел, находящийся в режиме ожидания, в любой момент времени содержит «слепок» конфигурации и данных активного узла. Таким образом, при выходе из строя активного узла пассивный − прозрачно для пользователя берет на себя всю нагрузку, предоставляя тем самым возможность администратору заменить неисправное устройство без остановки работы системы.
Аппаратно такая конфигурация может представлять собой два независимых сервера, подключенных к внешней дисковой полке (JBOD), или единый корпус с двумя материнскими платами и общим набором дисков.
В решении AVRORA 2.0 предусмотрена защита от порчи данных в следствие одновременной работы с ними обоих узлов (ситуация split-brain). Это обеспечивается благодаря следующим механизмам:
- Heartbeat
- узлы по выделенному Ethernet-каналу обмениваются информацией о работоспособности
- каждый узел обращается к метаданным на дисках для проверки, не осуществляется ли в текущий момент времени запись на диски другим узлом
- Асинхронная запись на диски
-
Запись выполняет только активный узел, пассивный считывает и проверяет, что RAID-массив создан.
Помимо кластерной архитектуры и дублирования основных компонентов, отказоустойчивость решения обусловлена схемой синхронизации кэша: для каждого RAID-массива активного узла создается резервная копия на пассивном, и ответ на запросы (команды) пользователей поступают лишь тогда, когда данные были помещены в кэш пассивного узла.
В конфигурации AVRORA 2.0 предусмотрено дублирование основных аппаратных компонентов и интерфейсов подключения:
- дублирование узлов (несколько материнских плат, модулей кэш-памяти, блоков питания, SAS-контроллеров, FC-контроллеров, системных дисков)
- дублирование каналов подключения к дискам (оба узла подключены к единому набору дисков)
- дублирование каналов подключения к СХД (сервера подключаются к СХД одновременно по нескольким каналам)
Высокая степень отказоустойчивости решения AVRORA 2.0 гарантирует доступ к данным и непрерывность бизнес-процессов. Дублирование аппаратных компонентов и интерфейсов обеспечивает защиту от следующих сбоев:
- выход из строя одного из аппаратных компонентов (процессора, материнской платы, блока питания, контроллера, системного диска)
- отказ интерфейса подключения к дисковым полкам (отказ SAS-кабеля, I/O- модуля)
- отказ интерфейса подключения серверов
- отказ интерфейса подключения сервера + сбой, возникновение ошибок в ПО на одном из узлов.
При выходе из строя одного из узлов происходит автоматическое переключение на второй узел, который благодаря наличию синхронизации всегда содержит актуальную копию конфигурации и данных активного устройства. При выходе из строя одного из интерфейсов подключения к дискам или к серверам также происходит автоматическое переключение на предусмотренный отказоустойчивой конфигурацией резервный интерфейс.