31.03.2023 Время чтения: 4 минуты

Аварийное восстановление и ключевые параметры DR

Представьте: в ЦОДе, где размещаются ваши бизнес-приложения, произошла серьезная авария, и серверное оборудование вышло из строя. ИТ-инфраструктура недоступна. Конечно, вы соблюдали правило 3-2-1, поэтому ваши резервные копии хранятся в другом дата-центре. Но развертывание ИТ-сервисов займет слишком много времени. Спасти вас от длительного простоя могло бы аварийное восстановление.

Рассказываем, как работает Disaster Recovery и как можно организовать аварийное восстановление.

Что такое аварийное восстановление

Аварийное восстановление (Disaster Recovery, DR) — это комплекс инструментов, позволяющий оперативно восстановить работу ИТ-систем компании в случае аварии на ИТ-площадке.

Фактически DR подразумевает создание резервной площадки, где будет развернута ИТ-инфраструктура компании после критического сбоя — полностью или частично. Чем быстрее заработают сервисы на резервной площадке, тем меньше убытков — как финансовых, так и репутационных — понесет бизнес.

Как организовать DR

В зависимости от наличия экспертизы, бюджета на ИТ, принятого в компании подхода бизнес может реализовать Disaster Recovery разными способами. Однако вне зависимости от выбранного способа резервная площадка должна соответствовать ряду условий.

Географическое удаление. Тогда чрезвычайная ситуация, вызвавшая аварию на основной площадке, не затронет резервную. Качественная сетевая связность с основной площадкой. Чем лучше канал связи, тем быстрее данные «дойдут» до резервной площадки.

Способы организации Disaster Recovery — от on-premise до DRaaS

On-premise. Компания, готовая к серьезным капитальным затратам, может построить резервную площадку своими силами. Конечно, в этом случае необходимо обзавестись профильной экспертизой — например, нанять специалистов с требуемыми компетенциями или воспользоваться услугами интеграторов.

На арендованной физической инфраструктуре. Резервную площадку можно организовать на арендованных у поставщика ИТ-услуг физических серверах. При этом часть работ по дублированию можно делегировать специалистам ЦОД.

Облачное резервное восстановление. Один из наиболее распространенных способов — организация резервной площадки на базе виртуальной инфраструктуры от провайдера. Ресурсы можно масштабировать по своему усмотрению, развертывание площадки займет всего несколько дней. Кроме того, многие провайдеры предлагают оплату по модели Pay-as-You-Go.

Аварийное восстановление как услуга (Disaster Recovery as a Service, DRaaS). Готовый сервис аварийного восстановления от провайдера. Помимо преимуществ вроде SLA с финансовой ответственностью и оплаты по факту может включать различные «бонусы» вроде консультаций экспертов, соблюдение требований 152-ФЗ и другие.

Ключевые параметры аварийного восстановления

Основными метриками Disaster Recovery считаются:

RPO (Recovery Point Objective);
RTO (Recovery Time Objective).

RPO. Определяет максимальный объем данных, который может позволить себе потерять бизнес в случае аварии. Именно от значения RPO зависит частота создания реплик. Например: при RPO равном 1 минуте реплика ИТ-инфраструктуры будет создаваться каждую минуту.

RTO. Определяет максимальную длительность простоя, которую может позволить себе компания. Чем меньше этот параметр, тем быстрее сервисы заработают после сбоя. Например, если RTO составляет 20 минут, то ИТ-инфраструктура заработает с резервной площадки не позднее 20 минут после аварии.

Кому не обойтись без DR

Организация аварийного восстановления — довольно трудоемкий и дорогостоящий процесс. Как правило, без него не обойтись компаниям, прибыль и репутация которых напрямую зависит от работоспособности систем. Разберем на примерах.

Крупная банковская организация. Приложение банка перестало работать: клиенты не могут зайти в личный кабинет ни через веб-сайт, ни через мобильное приложение. Транзакции тоже недоступны — не работает оплата покупок и перевод. Недоступны и дополнительные сервисы: юридические лица не могут выставлять и оплачивать счета, работать с ЭДО. Так продолжается на протяжении 30 минут — это серьезный репутационный ущерб для организации. Как правило, банку без DR не обойтись.

Социальная сеть. В дата-центре, где размещается ИТ-инфраструктура известной социальной сети, произошла авария. Сайт и приложение не работают. Рекламодатели обрывают телефоны и email'ы техподдержки. Финансовые потери из-за 20-минутного простоя исчисляются сотнями тысяч.

Небольшой магазин одежды. Интернет-магазин размещается на виртуальной машине, арендованной у IaaS-провайдера. Виртуальная инфраструктура становится недоступной на 30 минут. Однако за это время небольшой интернет-магазин потерял два заказа на общую сумму около 10 тысяч рублей.

В первых двух случаях затраты на disaster recovery абсолютно оправданы. А вот интернет-магазину тратить ИТ-бюджет на DR не стоит — стоимость его организации будет несоизмерима объему финансовых потерь, хватит и резервного копирования.

Резервное копирование — это не DR

Важно понимать, что резервное копирование и аварийное восстановление выполняют разные задачи и не могут заменить друг друга.

Бэкапы предназначены для повышения сохранности данных в случае их потери, уничтожения или модификации.
DR призвано сократить время восстановления работоспособности сервисов после аварии путем перезапуска сервисов на резервной площадке.