Опыт онлайн-банка нового поколения
Как онлайн-банк заменил зарубежную платформу виртуализации и систему резервного копирования на отечественные решения без остановки критичных сервисов
Заказчик
Заказчик — динамично растущий онлайн-банк, работающий без физических отделений и офисов обслуживания клиентов. Среди ключевых направлений компании — расчетно-кассовое обслуживание, выпуск дебетовых карт и кредитные продукты.
Будучи банком нового поколения, с момента своего появления на рынке организация делала ставку на технологичность и скорость обслуживания, бесперебойную доступность сервисов 24/7, бесшовный клиентский опыт. Основные точки контакта с клиентами — мобильное приложение и интернет-банк, любые сбои в их работе напрямую влияют на репутацию и финансовые показатели организации.
На момент начала проекта клиентская база банка превышала 2 млн. активных пользователей, включая как физических, так и юридических лиц. Ежемесячный прирост новых клиентов составлял 8-10%. В ИТ-подразделении банка работало более 150 сотрудников, включая специалистов по разработке, информационной безопасности и ИТ-инфраструктуре.
Исходные данные до начала проекта
ИТ-инфраструктура банка была построена на базе популярного ранее зарубежного решения для виртуализации серверов, развернутого несколько лет назад в двух ЦОД — основном и резервном. Управление парком из более чем 1000 виртуальных машин (ВМ), распределенных между физическими площадками, представляла собой классическую схему инфраструктуры.
На виртуальной инфраструктуре функционировали все ключевые ИТ-сервисы банка:
- автоматизированная банковская система;
- системы сбора, валидации и передачи отчетности;
- фронт-офисные сервисы — мобильное приложение и интернет-банк;
- внутренние учетные системы, скоринг, системы противодействия мошенничеству и ряд других бизнес-сервисов.
Резервное копирование осуществлялось с помощью агентного решения иностранного производства. Поддержка агентов в актуальном состоянии, контроль их работоспособности и своевременное обновление превратились в отдельную трудоемкую задачу для ИТ-специалистов организации. Процесс создания резервных копий создавал ощутимую нагрузку на дисковую подсистему и сети хранения данных, особенно в часы одновременного запуска заданий по расписанию.
К началу проекта банк уже частично заместил отдельные классы программного обеспечения (ПО), однако виртуализация и резервное копирование продолжали работать на базе решений иностранного производства.
Проблематика
В связи с требованиями регуляторов и необходимостью снижения операционных рисков организация была вынуждена инициировать замену ключевых компонентов ИТ-инфраструктуры. В частности, банк уже вступил в активную фазу импортозамещения — офисное ПО, почтовые системы, средства защиты информации были переведены на отечественные аналоги. Кроме того, эксплуатация устаревшего стека порождала множество критических проблем, которые сдерживали развитие бизнеса и ставили под угрозу непрерывность обслуживания клиентов.
Риски несоответствия требованиям регуляторов
Банк как субъект критической информационной инфраструктуры (КИИ) реализует импортозамещение в соответствии с дорожной картой, утвержденной регулятором, с поэтапным переходом на отечественное ПО в установленные сроки для объектов финансовой инфраструктуры. Несоблюдение этих сроков создавало прямые риски для организации.
Риски информационной безопасности
Поддержка иностранной платформы виртуализации была прекращена на территории РФ, что сделало затруднительным получение и установку любых обновлений ПО, в том числе патчей безопасности. Это создавало прямые риски для информационной безопасности предприятия, что для банка как для объекта КИИ было недопустимо.
Рост совокупной стоимости владения и риски непрерывности бизнеса
Прекращение поставок используемой предприятием платформы виртуализации в РФ сделало ее эксплуатацию экономически нецелесообразной. Стоимость владения существенно выросла из-за необходимости поиска обходных путей для получения обновлений. Затрудняли эффективное использование платформы и проблемы с масштабированием инфраструктуры. Отсутствие возможности оперативного приобретения новых лицензий создавало риски деградации производительности при росте нагрузки.
Высокая операционная нагрузка на ИТ-персонал
Агентная модель резервного копирования требовала регулярной поддержки ПО на каждой из 1000+ виртуальных машин. Администраторы тратили до 30% рабочего времени на рутинные операции — развертывание агентов на новых ВМ, обновление версий агентского ПО, контроль корректности выполнения заданий на каждой ВМ и ряд других.
Длительное окно резервного копирования
Одновременный запуск заданий на множестве ВМ создавал пиковую нагрузку на дисковую подсистему и каналы передачи данных. Окно резервного копирования для полных копий достигало 10–12 часов, что выходило за пределы технологического окна и создавало конфликты с выполнением регламентных операций в других системах
Отсутствие полноценной технической поддержки
В связи с уходом с ИТ-рынка зарубежных вендоров, из-за санкционной политики, банк лишился оперативной технической поддержки, что не позволяло администраторам быстро устранять возникающие сложности.
Чтобы решить все перечисленные выше проблемы, организация приняла решение заменить используемые систему виртуализации и ПО для резервного копирования отечественными аналогами.
Цели и задачи проекта
Банковские организации относятся к объектам критической инфраструктуры, поэтому к используемым информационным системам предъявляются особые требования по надежности, безопасности и устойчивости работы.
Ключевыми целями проекта стали:
Для достижения целей заказчику было необходимо решить сразу несколько поставленных задач:
- Выполнить миграцию более 1000 виртуальных машин с зарубежного гипервизора на отечественное решение без остановки бизнес-сервисов.
- Обеспечить работу отказоустойчивого кластера с автоматическим перезапуском ВМ при сбоях физических узлов.
- Внедрить механизмы балансировки нагрузки для равномерного распределения ресурсов между серверами.
- Сократить окно резервного копирования до 8 часов.
- Обеспечить целевое время восстановления (RTO) для АБС и фронт-офисных систем не более 120 минут.
- Внедрить инкрементальную схему копирования с поддержкой дедупликации и сжатия на стороне системы резервного копирования, реализовать многоуровневую политику хранения.
Решения, используемые в проекте
Поскольку организация является объектом КИИ, к решениям предъявлялись особые требования в части информационной безопасности. В результате изучения рынка компания сделала выбор в пользу внедрения решений, образующих единый технологический стек на базе продуктов «Группы Астра».
На основе комплексной оценки нескольких вариантов связка платформы виртуализации VMmanager и системы резервного копирования и восстановления RuBackup показала наилучшее соответствие техническим требованиям и бизнес-потребностям банка.
Ключевые критерии выбора ПО:
Внедрение связки VMmanager и RuBackup позволило заказчику сформировать полностью российский, сертифицированный, масштабируемый и экономически эффективный стек управления виртуальной инфраструктурой и защиты данных, полностью соответствующий стратегии импортозамещения и требованиям регуляторов к объектам КИИ финансового сектора.
Особенности используемых решений
VMmanager
Высокая масштабируемость
В основе архитектуры VMmanager заложена высокая масштабируемость. Одна инсталляция VMmanager рассчитана на работу с 56 000+ виртуальных машин, 50+ кластеров, 350+ узлов в кластере. Возможно дальнейшее масштабирование за счет увеличения числа инсталляций платформы. Эта возможность платформы заложила основу для многолетнего роста ИТ-инфраструктуры без необходимости смены технологического стека.
Оперативное масштабирование под нагрузку
Механизм бесшовного добавления новых хостов в кластер с автоматической балансировкой нагрузки обеспечил заказчику инструмент для оперативного реагирования на пиковые нагрузки. Благодаря ему ИТ-отдел может оперативно и без простоев наращивать мощности, а встроенный в платформу балансировщик обеспечивает равномерное распределение ресурсов без прерывания сервисов.
Отказоустойчивость на уровне платформы и кластеров
Благодаря реализации Unbreakable clusters (отказоустойчивых кластеров с автоматическим перезапуском ВМ при сбоях) VMmanager гарантирует высокий уровень отказоустойчивости — в случае сбоя на одном из узлов платформа в автоматическом режиме за считанные секунды переносит ВМ на исправные серверы, выполняя требования к бесперебойности производственных процессов.
Непрерывность работы приложений и сервисов
Возможность горячего изменения конфигурации ВМ позволяет проводить технические работы без простоя сервисов, сохраняя доступность 24/7 и бесперебойный клиентский опыт. ИТ-специалисты заказчика получили возможность мигрировать виртуальные машины между узлами без их остановки, что позволило проводить необходимые технические работы так, чтобы это происходило незаметно для пользователей.
Миграция виртуальных машин с других платформ виртуализации
Процесс миграции с ранее используемой платформы был значительно упрощен благодаря четкой документации VMmanager. Пошаговые инструкции по переносу виртуальных машин позволили ИТ-специалистам заказчика самостоятельно выполнить большую часть работ.
Работа в закрытом контуре
Возможность развертывания в изолированном контуре без доступа к интернету обеспечила соответствие требованиям информационной безопасности банка.
RuBackup
Безагентное резервное копирование, интеграция с VMmanager через API
Интеграция VMmanager и RuBackup дает заказчику возможность создания резервных копий без установки дополнительных агентов внутри гостевых ОС. Системы взаимодействуют напрямую через API — RuBackup получает полную информацию о виртуальной инфраструктуре из VMmanager, платформы согласовывают процесс создания резервных копий без остановки ВМ и работающих приложений, интеграция на уровне гипервизора обеспечивает высокую скорость и минимальное влияние на производительность.
Широкие функциональные возможности
Система позволяет реализовать полное, инкрементальное и дифференциальное резервное копирование. Доступно глобальное расписание, обеспечивающее автоматическое создание резервных копий клиентов. Заказчик может гибко управлять устройствами для хранения резервных копий и распределять данные по разным хранилищам в зависимости от политики компании.
Также доступно сжатие и шифрование резервных копий с поддержкой отечественных алгоритмов ГОСТ 34.12–2015 (“Кузнечик“, «Магма») и международных стандартов (AES, Twofish и др.).
Масштабируемость
RuBackup обеспечивает горизонтальную масштабируемость решения при помощи медиа-серверов. При необходимости заказчик может увеличить производительность системы резервного копирования, добавив нужное количество медиа-серверов.
Автоматическая балансировка создаваемых задач между медиа-серверами
В серверную группировку RuBackup могут входить несколько медиа-серверов для распределения нагрузки между ними. Доступен функционал автоматической балансировки для вновь создаваемых задач резервного копирования. Пулы хранения резервных копий могут быть объединены в специальную динамическую группу. Это могут быть пулы на одном сервере или на нескольких медиа-серверах. Динамических групп может быть несколько. Для динамической группы можно определить критические параметры, при которых задача будет использовать один из наименее загруженных пулов на наименее загруженном медиа-сервере.
Поточная глобальная дедупликация
RuBackup позволяет использовать режим дедупликации при создании резервных копий данных, не только на стороне клиента, но и дает возможность размещать резервные копии в блочных устройствах, поддерживающих технологию дедупликации, со значительной экономией пространства. В системе резервного копирования может быть несколько пулов для дедупликации с разными характеристиками (размер блока, алгоритм и длина хэш-функции).
Непрерывная удаленная репликация
Благодаря RuBackup можно сократить время восстановления до нескольких минут. В ходе непрерывной репликации все изменения источника данных передаются на резервный хост или резервную виртуальную машину и применяются к резервному источнику данных. Минимальное время отставания — 1 минута. Есть возможность выполнять репликацию для большинства поддерживаемых RuBackup источников данных: файловых систем, виртуальных машин и т.п.
Отказоустойчивость
В RuBackup есть встроенный HA-кластер. В случае отказа основного сервера все запросы будут автоматически перенаправлены на резервный. В случае отказа медиа-сервера резервные копии могут быть перенаправлены в другое хранилище.
Итоги и планы
Реализация проекта по внедрению VMmanager и RuBackup позволила банку в установленный срок выполнить требования регуляторов по импортозамещению ПО на объектах КИИ, а также достичь значимых операционных и финансовых результатов:
- Полностью замещены зарубежная платформа виртуализации и иностранная агентная система резервного копирования.
- Достигнутые показатели полностью соответствуют внутренним SLA банка и отраслевым стандартам для финансовых организаций.
- Окно резервного копирования сокращено с 10–12 до 8 часов за счет перехода на инкрементальную технологию и безагентную архитектуру.
- Целевое время восстановления (RTO) для АБС и фронт-офисных систем теперь составляет не более 120 минут.
- Снижена операционная нагрузка на ИТ-персонал — поскольку теперь администраторы не занимаются установкой и обновлением агентов резервного копирования, трудоемкость сопровождения системы резервного копирования снизилась на 80%.
- Управление политиками резервного копирования централизовано и выполняется из единой консоли RuBackup.