Опыт онлайн-банка нового поколения

Как онлайн-банк заменил зарубежную платформу виртуализации и систему резервного копирования на отечественные решения без остановки критичных сервисов

Заказчик

Заказчик — динамично растущий онлайн-банк, работающий без физических отделений и офисов обслуживания клиентов. Среди ключевых направлений компании — расчетно-кассовое обслуживание, выпуск дебетовых карт и кредитные продукты. 

Будучи банком нового поколения, с момента своего появления на рынке организация делала ставку на технологичность и скорость обслуживания, бесперебойную доступность сервисов 24/7, бесшовный клиентский опыт. Основные точки контакта с клиентами — мобильное приложение и интернет-банк, любые сбои в их работе напрямую влияют на репутацию и финансовые показатели организации.

На момент начала проекта клиентская база банка превышала 2 млн. активных пользователей, включая как физических, так и юридических лиц. Ежемесячный прирост новых клиентов составлял 8-10%. В ИТ-подразделении банка работало более 150 сотрудников, включая специалистов по разработке, информационной безопасности и ИТ-инфраструктуре.

Исходные данные до начала проекта

ИТ-инфраструктура банка была построена на базе популярного ранее зарубежного решения для виртуализации серверов, развернутого несколько лет назад в двух ЦОД — основном и резервном. Управление парком из более чем 1000 виртуальных машин (ВМ), распределенных между физическими площадками, представляла собой классическую схему инфраструктуры.

На виртуальной инфраструктуре функционировали все ключевые ИТ-сервисы банка:

  • автоматизированная банковская система;
  • системы сбора, валидации и передачи отчетности;
  • фронт-офисные сервисы — мобильное приложение и интернет-банк;
  • внутренние учетные системы, скоринг, системы противодействия мошенничеству и ряд других бизнес-сервисов.

Резервное копирование осуществлялось с помощью агентного решения иностранного производства. Поддержка агентов в актуальном состоянии, контроль их работоспособности и своевременное обновление превратились в отдельную трудоемкую задачу для ИТ-специалистов организации. Процесс создания резервных копий создавал ощутимую нагрузку на дисковую подсистему и сети хранения данных, особенно в часы одновременного запуска заданий по расписанию.

К началу проекта банк уже частично заместил отдельные классы программного обеспечения (ПО), однако виртуализация и резервное копирование продолжали работать на базе решений иностранного производства.

Проблематика

В связи с требованиями регуляторов и необходимостью снижения операционных рисков организация была вынуждена инициировать замену ключевых компонентов ИТ-инфраструктуры. В частности, банк уже вступил в активную фазу импортозамещения — офисное ПО, почтовые системы, средства защиты информации были переведены на отечественные аналоги. Кроме того, эксплуатация устаревшего стека порождала множество критических проблем, которые сдерживали развитие бизнеса и ставили под угрозу непрерывность обслуживания клиентов.

Риски несоответствия требованиям регуляторов Риски несоответствия требованиям регуляторов

Банк как субъект критической информационной инфраструктуры (КИИ) реализует импортозамещение в соответствии с дорожной картой, утвержденной регулятором, с поэтапным переходом на отечественное ПО в установленные сроки для объектов финансовой инфраструктуры. Несоблюдение этих сроков создавало прямые риски для организации.

Риски информационной безопасности Риски информационной безопасности

Поддержка иностранной платформы виртуализации была прекращена на территории РФ, что сделало затруднительным получение и установку любых обновлений ПО, в том числе патчей безопасности. Это создавало прямые риски для информационной безопасности предприятия, что для банка как для объекта КИИ было недопустимо.

Рост совокупной стоимости владения и риски непрерывности бизнеса Рост совокупной стоимости владения и риски непрерывности бизнеса

Прекращение поставок используемой предприятием платформы виртуализации в РФ сделало ее эксплуатацию экономически нецелесообразной. Стоимость владения существенно выросла из-за необходимости поиска обходных путей для получения обновлений. Затрудняли эффективное использование платформы и проблемы с масштабированием инфраструктуры. Отсутствие возможности оперативного приобретения новых лицензий создавало риски деградации производительности при росте нагрузки.

Высокая операционная нагрузка на ИТ-персонал Высокая операционная нагрузка на ИТ-персонал

Агентная модель резервного копирования требовала регулярной поддержки ПО на каждой из 1000+ виртуальных машин. Администраторы тратили до 30% рабочего времени на рутинные операции — развертывание агентов на новых ВМ, обновление версий агентского ПО, контроль корректности выполнения заданий на каждой ВМ и ряд других.

Длительное окно резервного копирования Длительное окно резервного копирования

Одновременный запуск заданий на множестве ВМ создавал пиковую нагрузку на дисковую подсистему и каналы передачи данных. Окно резервного копирования для полных копий достигало 10–12 часов, что выходило за пределы технологического окна и создавало конфликты с выполнением регламентных операций в других системах

Отсутствие полноценной технической поддержки Отсутствие полноценной технической поддержки

В связи с уходом с ИТ-рынка зарубежных вендоров, из-за санкционной политики, банк лишился оперативной технической поддержки, что не позволяло администраторам быстро устранять возникающие сложности.

Чтобы решить все перечисленные выше проблемы, организация приняла решение заменить используемые систему виртуализации и ПО для резервного копирования отечественными аналогами.

Цели и задачи проекта

Банковские организации относятся к объектам критической инфраструктуры, поэтому к используемым информационным системам предъявляются особые требования по надежности, безопасности и устойчивости работы.

Ключевыми целями проекта стали:

Снижение операционной нагрузки и переход от трудоемкой агентной модели резервного копирования к современной безагентной архитектуре с сокращением ручного труда администраторов.
Ускорение процесса создания резервных копий и внедрение эффективных механизмов хранения данных (дедупликация, сжатие, распределение резервных копий).
Замена зарубежной системы виртуализации и иностранного агентного решения резервного копирования на отечественные продукты, включенные в Единый реестр российских программ для электронных вычислительных машин и баз данных Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации (Минцифры РФ) и имеющие необходимые сертификаты ФСТЭК.

Для достижения целей заказчику было необходимо решить сразу несколько поставленных задач:

  • Выполнить миграцию более 1000 виртуальных машин с зарубежного гипервизора на отечественное решение без остановки бизнес-сервисов.
  • Обеспечить работу отказоустойчивого кластера с автоматическим перезапуском ВМ при сбоях физических узлов.
  • Внедрить механизмы балансировки нагрузки для равномерного распределения ресурсов между серверами.
  • Сократить окно резервного копирования до 8 часов.
  • Обеспечить целевое время восстановления (RTO) для АБС и фронт-офисных систем не более 120 минут.
  • Внедрить инкрементальную схему копирования с поддержкой дедупликации и сжатия на стороне системы резервного копирования, реализовать многоуровневую политику хранения.

Решения, используемые в проекте

Поскольку организация является объектом КИИ, к решениям предъявлялись особые требования в части информационной безопасности. В результате изучения рынка компания сделала выбор в пользу внедрения решений, образующих единый технологический стек на базе продуктов «Группы Астра».

VMmanager — инструмент для создания отказоустойчивой виртуальной среды и централизованного управления аппаратной и контейнерной виртуализацией.
 
RuBackup — решение для автоматизированной защиты данных инфраструктурных систем любого масштаба и бизнес-приложений

На основе комплексной оценки нескольких вариантов связка платформы виртуализации VMmanager и системы резервного копирования и восстановления RuBackup показала наилучшее соответствие техническим требованиям и бизнес-потребностям банка.

Ключевые критерии выбора ПО:

Оба решения включены в Единый реестр российских программ для электронных вычислительных машин и баз данных Минцифры РФ.
Заказчикам VMmanager доступен удобный и надежный механизм переноса существующих виртуальных машин с ранее используемой платформы без простоев.
Архитектура VMmanager адаптирована к высоким нагрузкам и позволяет гибко наращивать вычислительные мощности.
VMmanager бесшовно интегрируется с профессиональным решением для резервного копирования, восстановления и защиты данных RuBackup.
RuBackup поддерживает горизонтальную масштабируемость. Можно добавлять новые узлы (медиа-сервера) для обработки растущей нагрузки.
СРК RuBackup имеет сертификат соответствия по 4-му уровню доверия для системы резервного копирования и восстановления данных в соответствии с требованиями ФСТЭК России.
RuBackup позволяет выполнять резервное копирование виртуальных машин среды виртуализации VMmanager безагентным способом.
Функционал RuBackup так же позволяет защищать ВМ, базы данных, физические серверы, системы дата-центров, облачные сервисы.
VMmanager — сертифицированное средство виртуализации 4 класса защиты. Наличие сертификата ФСТЭК позволяет использовать платформу для создания и обеспечения защиты виртуальной инфраструктуры, обрабатывающей любую информацию ограниченного доступа, включая государственные системы, персональные данные и важные объекты критической информационной инфраструктуры (КИИ).

Внедрение связки VMmanager и RuBackup позволило заказчику сформировать полностью российский, сертифицированный, масштабируемый и экономически эффективный стек управления виртуальной инфраструктурой и защиты данных, полностью соответствующий стратегии импортозамещения и требованиям регуляторов к объектам КИИ финансового сектора.

Особенности используемых решений

VMmanager

Высокая масштабируемость Высокая масштабируемость

В основе архитектуры VMmanager заложена высокая масштабируемость. Одна инсталляция VMmanager рассчитана на работу с 56 000+ виртуальных машин, 50+ кластеров, 350+ узлов в кластере. Возможно дальнейшее масштабирование за счет увеличения числа инсталляций платформы. Эта возможность платформы заложила основу для многолетнего роста ИТ-инфраструктуры без необходимости смены технологического стека.

Оперативное масштабирование под нагрузку Оперативное масштабирование под нагрузку

Механизм бесшовного добавления новых хостов в кластер с автоматической балансировкой нагрузки обеспечил заказчику инструмент для оперативного реагирования на пиковые нагрузки. Благодаря ему ИТ-отдел может оперативно и без простоев наращивать мощности, а встроенный в платформу балансировщик обеспечивает равномерное распределение ресурсов без прерывания сервисов.

Отказоустойчивость на уровне платформы и кластеров Отказоустойчивость на уровне платформы и кластеров

Благодаря реализации Unbreakable clusters (отказоустойчивых кластеров с автоматическим перезапуском ВМ при сбоях) VMmanager гарантирует высокий уровень отказоустойчивости — в случае сбоя на одном из узлов платформа в автоматическом режиме за считанные секунды переносит ВМ на исправные серверы, выполняя требования к бесперебойности производственных процессов.

Непрерывность работы приложений и сервисов Непрерывность работы приложений и сервисов

Возможность горячего изменения конфигурации ВМ позволяет проводить технические работы без простоя сервисов, сохраняя доступность 24/7 и бесперебойный клиентский опыт. ИТ-специалисты заказчика получили возможность мигрировать виртуальные машины между узлами без их остановки, что позволило проводить необходимые технические работы так, чтобы это происходило незаметно для пользователей.

Миграция виртуальных машин с других платформ виртуализации Миграция виртуальных машин с других платформ виртуализации

Процесс миграции с ранее используемой платформы был значительно упрощен благодаря четкой документации VMmanager. Пошаговые инструкции по переносу виртуальных машин позволили ИТ-специалистам заказчика самостоятельно выполнить большую часть работ.

Работа в закрытом контуре Работа в закрытом контуре

Возможность развертывания в изолированном контуре без доступа к интернету обеспечила соответствие требованиям информационной безопасности банка.

RuBackup

Безагентное резервное копирование, интеграция с VMmanager через API Безагентное резервное копирование, интеграция с VMmanager через API

Интеграция VMmanager и RuBackup дает заказчику возможность создания резервных копий без установки дополнительных агентов внутри гостевых ОС. Системы взаимодействуют напрямую через API — RuBackup получает полную информацию о виртуальной инфраструктуре из VMmanager, платформы согласовывают процесс создания резервных копий без остановки ВМ и работающих приложений, интеграция на уровне гипервизора обеспечивает высокую скорость и минимальное влияние на производительность.

Широкие функциональные возможности Широкие функциональные возможности

Система позволяет реализовать полное, инкрементальное и дифференциальное резервное копирование. Доступно глобальное расписание, обеспечивающее автоматическое создание резервных копий клиентов. Заказчик может гибко управлять устройствами для хранения резервных копий и распределять данные по разным хранилищам в зависимости от политики компании.

Также доступно сжатие и шифрование резервных копий с поддержкой отечественных алгоритмов ГОСТ 34.12–2015 (“Кузнечик“, «Магма») и международных стандартов (AES, Twofish и др.).

Масштабируемость Масштабируемость

RuBackup обеспечивает горизонтальную масштабируемость решения при помощи медиа-серверов. При необходимости заказчик может увеличить производительность системы резервного копирования, добавив нужное количество медиа-серверов.

Автоматическая балансировка создаваемых задач между медиа-серверами Автоматическая балансировка создаваемых задач между медиа-серверами

В серверную группировку RuBackup могут входить несколько медиа-серверов для распределения нагрузки между ними. Доступен функционал автоматической балансировки для вновь создаваемых задач резервного копирования. Пулы хранения резервных копий могут быть объединены в специальную динамическую группу. Это могут быть пулы на одном сервере или на нескольких медиа-серверах. Динамических групп может быть несколько. Для динамической группы можно определить критические параметры, при которых задача будет использовать один из наименее загруженных пулов на наименее загруженном медиа-сервере.

Поточная глобальная дедупликация Поточная глобальная дедупликация

RuBackup позволяет использовать режим дедупликации при создании резервных копий данных, не только на стороне клиента, но и дает возможность размещать резервные копии в блочных устройствах, поддерживающих технологию дедупликации, со значительной экономией пространства. В системе резервного копирования может быть несколько пулов для дедупликации с разными характеристиками (размер блока, алгоритм и длина хэш-функции).

Непрерывная удаленная репликация Непрерывная удаленная репликация

Благодаря RuBackup можно сократить время восстановления до нескольких минут. В ходе непрерывной репликации все изменения источника данных передаются на резервный хост или резервную виртуальную машину и применяются к резервному источнику данных. Минимальное время отставания — 1 минута. Есть возможность выполнять репликацию для большинства поддерживаемых RuBackup источников данных: файловых систем, виртуальных машин и т.п.

Отказоустойчивость Отказоустойчивость

В RuBackup есть встроенный HA-кластер. В случае отказа основного сервера все запросы будут автоматически перенаправлены на резервный. В случае отказа медиа-сервера резервные копии могут быть перенаправлены в другое хранилище.

Итоги и планы

Реализация проекта по внедрению VMmanager и RuBackup позволила банку в установленный срок выполнить требования регуляторов по импортозамещению ПО на объектах КИИ, а также достичь значимых операционных и финансовых результатов:

  • Полностью замещены зарубежная платформа виртуализации и иностранная агентная система резервного копирования.
  • Достигнутые показатели полностью соответствуют внутренним SLA банка и отраслевым стандартам для финансовых организаций.
  • Окно резервного копирования сокращено с 10–12 до 8 часов за счет перехода на инкрементальную технологию и безагентную архитектуру.
  • Целевое время восстановления (RTO) для АБС и фронт-офисных систем теперь составляет не более 120 минут.
  • Снижена операционная нагрузка на ИТ-персонал — поскольку теперь администраторы не занимаются установкой и обновлением агентов резервного копирования, трудоемкость сопровождения системы резервного копирования снизилась на 80%.
  • Управление политиками резервного копирования централизовано и выполняется из единой консоли RuBackup.