Меня зовут Анатолий Яхонтов. Я руковожу техническим департаментом компании X NET и последние 10 лет занимаюсь тем, что восстанавливаю работоспособность инфраструктуры у клиентов. Я работаю с серверными помещениями и дата-центрами, которые были построены с минимальным бюджетом и ошибками, или с огромным бюджетом и круговой некомпетентностью.
В этой статье расскажу, как не повторять чужих ошибок, и поделюсь своим опытом:
- Какие вопросы забывают продумать при строительстве серверных, и к каким последствиям это приводит.
- Почему нужно девять месяцев проектировать и три месяца строить.
- Как организовать надёжный дата-центр и не израсходовать деньги на впустую.
- Когда не нужно резервировать электроснабжение.
- О чем забывают, организуя систему диспетчеризации.
Содержание
Система охлаждения: как спроектировать и какие особенности помещения учитывать.
Энергопотребление и каналы связи: как рассчитать уровень резервирования и когда резервировать не нужно. Как увлечение рыбалкой привело к аварии в дата-центре.
Влагозащита: почему всегда нужно делать дренажную систему и можно ли изолировать помещение от воды.
Физическая безопасность: важная деталь, о которой забывают.
Пожаротушение: всегда ли стоит тушить пламя, почему порошковая система не подходит для серверных, как невнимательное проектирование делает борьбу с огнем бесполезной.
Вентиляция и климат в серверной: о вреде сухого и пыльного воздуха.
Диспетчеризация: почему установить датчики на оборудование недостаточно
Система охлаждения
Я был свидетелем открытия серверного помещения в большом вузе. Для него построили новое здание. Всё было красиво. В серверную вложили много денег и закупили массу оборудования. На открытии торжественно перерезали ленточку и рассказывали об инновациях в области IT. Комиссия торжественно переходила из помещения к помещению. К моменту, когда мы дошли до этажа с серверной, нам открылось масса интересного. Оказалось, что в качестве системы охлаждения на стене висели два бытовых кондиционера общей мощностью теплоотвода по 1,5 киловатта каждая. А тепловая мощность оборудования была в значительно больше, чем возможности кондиционеров. Но самое главное, что конденсат с внутренних блоков сливался в пластиковое ведро. Так было сделано, потому что серверная находилась в центре здания, и сделать слив на улицу «кустарными» методами не было возможности.
Разбор полётов показал, что задание на строительство серверной было сделано плохо: в нём не было указано никаких технических параметров серверной. Поэтому строители установили систему кондиционирования исходя из площади помещения и того, что в нём будут сидеть четыре человека. В проекте было сказано, что система должна быть зарезервирована, поэтому установили два кондиционера, а не один. Почему не предусмотрели систему отвода дренажа? Потому что техническое задание ее не включало.
В небольших дата-центрах систему отвода тепла часто делают из того, что есть под рукой. Это приводит к печальным последствиям.
Вся электроэнергия, которая поступает на вычислительные мощности, так или иначе преобразуется в тепловую. В серверной нагревается воздух, и его необходимо отводить, чтобы оборудование не вышло из строя.
Как спроектировать систему охлаждения
1. Рассчитайте удельную мощность тепловыделения
Каким бы сложным это ни казалось, вычислите, сколько тепла выделяет ваше оборудование. Я рекомендую делать вычисления не в киловаттах, а в британских тепловых единицах (BTU). Большинство крупных вендоров указывают тепловыделение именно в BTU.
После этого обратите внимание на рекомендации ASHRAE (American Society of Heating, Refrigerating and Air-Conditioning Engineers). Это профессиональное сообщество по проектированию систем отопления, вентиляции и систем охлаждения, которое имеет опыт в «холодильниках» с 1894 года, когда лёд еще возили под одеялами на телегах.
2. Умножьте рассчитанную мощность тепловыделения на два
Я рекомендую делать систему тепловыделение с двойным запасом надёжности. Не стоит заставлять систему работать на пределе — это принцип отказоустойчивости. Делать двойное резервирование целесообразно по нескольким причинам:
- Сделать поправку на ошибку в расчётах.
- Заложить возможность масштабирования: количество оборудования в серверной может со временем увеличиться, и потребуется более мощная система охлаждения.
- Учесть локальные точки перегрева. В зависимости от конфигурации помещения и расположения оборудования в нем, в серверной могут возникать локальные точки перегрева. Это места, куда не попадает охлажденный воздух, даже если в помещении стоит очень мощный кондиционер. Например, они часто возникают в задних частях шкафа. Локальные точки перегрева можно рассчитать методом теплового моделирования, но это достаточно дорогой способ, не всегда ведущий к правильному результату. Зачастую дешевле перезаложить мощности кондиционирования.
3. Закупить систему охлаждения
После того, как рассчитана необходимая мощность системы теплоотвода, можно приступить к поиску оборудования для охлаждения. Принципы термодинамики везде одни и те же, и принцип действия у большинства систем охлаждения одинаковый. Но все же на рынке есть масса решений:
- Классическое фреоновое охлаждение;
- Фрикулинг-системы, которые охлаждают оборудование за счет окружающей среды;
- Чиллерное охлаждение, в котором средой для транспорта тепла служит жидкость (например, вода или этиленгликоль).
На выбор системы охлаждения влияет огромное количество деталей: от климатической зоны, где находится серверная, до особенностей здания и конкретного помещения в нём.
Климатическая зона
Головной офис компании, в которой я работаю, находится в Центральном Казахстане. Здесь 8 месяцев холодно, поэтому мы часто устанавливаем фрикулинг-системы. В наших погодных условиях они справляются и, как правило, дают экономическую выгоду при мощности теплоотвода от 40 Квт. В таких сибирских городах, как Иркутск, фрикулинг можно использовать практически везде. А вот в Москве ставить фрикуллинг-системы надо после внимательного расчёта.
В Финляндии есть дата-центр с охлаждением водой, поступающей по трубе из реки. Температура воды в реке почти всегда около 2 градусов. Скорость реки достаточно большая, и по течению есть несколько гидроэлектростанций. Они постоянно обеспечивают тепловую нагрузку, поэтому река не замерзает. Эта система охлаждения обходится владельцам почти бесплатно — платят только за электроэнергию насоса, качающего воду.
Здание
Однажды мы разбирали случай, когда заказчик установил у себя на открытой территории контейнерный ЦОД, подвел к нему инженерную электрику, сети. Оставалось установить на крыше систему охлаждения. Он так и сделал, но забыл, что на металлический контейнер попадают прямые солнечные лучи, и они приносят куда больше тепла, чем всё оборудование внутри. Пришлось возводить вокруг уже подключенного к сетям контейнера мини-ангар, чтобы защищать оборудование от солнца.
Расположение серверной в здании
Важно не только то, где находится здание, но и в какой части помещения расположена серверная.
Рассмотрим случай, когда серверное помещение находится в глубине большого здания. Инженеры замерили, что от уличной стены до оборудования необходимо провести фреоновую трассу. Её длина — 56 метров с учетом всех поворотов, которые встречаются по пути. В конце установлен мощный кондиционер, есть дополнительный ресивер. Первое время все работает хорошо, но уже через три сезона отказывает компрессор. Кажется, что в этом виноват производитель оборудования. На самом деле проблема в проектировании и строительстве. Никто не рассчитал, как правильно сделать уклон фреоновой трассы, чтобы масло растворенное во фреоне, стекало в сторону компрессора и смазывало его. В результате со временем компрессор вышел из строя.
О таких деталях можно рассуждать только в контексте конкретной трассы. Поэтому выбор системы теплоотвода лучше доверить профессионалам. Они подберут решение под климатическую зону, конкретное здание, помещения в нём, мощности.
Для небольшой серверной на 5-6 Квт мощности нет смысла строить большую систему охлаждения, которая ещё и требует инженерных ресурсов при эксплуатации. Достаточно поставить хорошие и качественные бытовые кондиционеры и предусмотреть для них способ отвода конденсата (хотя бы в бытовую канализацию), чтобы не пришлось бегать с ведром.
Что запомнить о проектировании системы охлаждения в серверной
- Рассчитайте удельную тепловую мощность оборудования, а не площадь или другие параметры.
- Резервируйте систему теплоотведения в два раза. Это нужно, чтобы застраховаться от ошибок в расчётах и иметь запас на случай аварии или расширения парка.
- При выборе системы охлаждения учитывайте климатическую зону и особенности помещения. В сложных случаях лучше обратиться за помощью к профессионалам.
- Для небольшой серверной можно использовать бытовые кондиционеры и предусмотреть систему отвода конденсата.
Энергопотребление и каналы связи
Организовать электропитание в серверной не сложно: достаточно подобрать систему бесперебойного питания и рассчитать необходимый уровень автономии в минутах. Основные решения для резервирования мощностей:
- дизельный или бензиновый генераторы,
- газовый генератор,
- вторая линия ввода от дополнительной подстанции.
Какой вариант выбрать, зависит от особенностей конкретного места. На эту тему написано так много, что проблем с этим обычно не возникает. Помните главное — любая линия питания имеет свойства выходить из строя.
Как рассчитать степень резервирования коммуникаций
В числе наших заказчиков была сеть супермаркетов. Мы спорили с местным менеджментом, достаточная ли отказоустойчивость дата-центра заложена в проект. Чтобы понять это, нужно ответить на вопрос: сколько сможет просуществовать бизнес без серверных мощностей?
Оказалось, что в супермаркете есть локальные кассы, поэтому какое-то время товары можно продавать без связи с сервером. Я спросил: «А сможете ли вы сделать в конце дня инкассацию?» Мне ответили: «Инкассацию можно вызвать по телефону». А вот с закрытием кассового дня уже возникнут проблемы: для этого нужно выгрузить остатки на сервер.
Получается, что бизнес может существовать без серверных мощностей один день. Исходя из этого мы рассчитали объем топливного бака в дизельном генераторе и другие системы резервирования. Даже если дата-центр будет простаивать полсуток, сотрудники смогут спокойно работать до вечера. А ближе к ночи можно заправить и запустить генератор, подключиться к серверу и закрыть кассовый день.
Если бизнес живет без дата-центра, его вообще не нужно резервировать. Если не живёт — думать о второй линии связи и электропитания.
Можно ли застраховаться от повреждения кабеля из-за земляных работ
На этапе проектирования невозможно застраховаться от повреждения кабеля.
Мы строили серверную возле здания крупного суда. Через его территорию проходил наш электрический кабель. Сотрудники суда убедили нас, что площадка хорошо охраняется, и мы защищены от проблем с поврежденными коммуникациями. Поэтому мы вручную закопали кабель на небольшую глубину. Через какое-то время он вышел из строя. Оказалось, что охранники суда увлекались рыбалкой и несколько лет копали червей на территории. В какой-то момент штыковой лопатой нам перерубили кабель.
В одном из проектов обсуждали вариант защиты коммуникаций с помощью бетонных П-образных блоков, которыми закрывают канализацию. Но такое решение требует больше денег и времени: необходимо больше согласований, техники, трудозатрат.
Когда нужен фальшпол
Хороший фальшпол удорожает проект дата-центра, потому что его делают из качественных негорючих материалов. Фальшпол нужен для организации охлаждения, при использовании передвижных шкафов и если у вас большое число коммуникаций.
Охлаждение
Существуют системы охлаждения, при которых кондиционеры дуют в подпольное пространство и создают там избыточное давление, а холодный воздух выходит точечно. В этом случае используется фальшпол.
Передвижные шкафы
Также фальшпол нужен, если вы используете передвижные шкафы. Это удобно тем, что вы можете снять плитку фальшпола в любой месте, поставить туда решетку и организовать выход холодного воздуха.
У этой системы есть свои «но». Например, нет смысла ставить вентиляционные решетки в пол в пределах трех метров от кондиционера. Там возникает три метра пустого пространства дата-центра, где вы не можете размещать оборудование. Я видел пару ошибок, когда стойки ставили очень близко к кондиционерам. И оборудование перегревалось — скорость движения воздуха под полом была такой высокой, что он пролетал под решёткой и не выходил вверх.
Большое число коммуникаций
С помощью фальшпола можно развести сложные коммуникации в серверной. Например, если вы используете для охлаждения водяные фанкойлы, можно подвести воду к ним через небольшой фальшпол. Тогда в случае аварии вода не повредит оборудование. Но и поднимать фальшпол выше, чем на 30 сантиметров, не будет смысла.
Влагозащита
Чтобы защитить оборудование от воды, можно установить влагозащиту — например, металлические короба. Но такие заграждения стоят дорого. Дешевле организовать в серверной дренаж: небольшой приямок и пол с уклоном в 3% и дренажный насос со шлангом до ближайшей канализации. На насосе поставить поплавок и включить обслуживание системы в плановые работы. Хотя бы раз в квартал техподдержка должна проверять, что все работает.
В дата-центре у одного из наших клиентов стояла достаточно сложная система охлаждения воздух-фреон\фреон-гликоль\гликоль-вода, которая поступала в фэнкойлы машзала. В водяной системе были большие трехтонные накопительные баки с водой. Они могли еще 40 минут охлаждать оборудование, если бы фреоновая система вышла из строя.
Рядом через две стенки было вахтёрное помещение с рукомойником и канализацией. Уборщицы хранили в нём своё оборудование. Но канализация центральная, а дренажный канал был подключён из этого дата-центра.
Однажды инженеры, которые обслуживали этот дата-центр, сказали: «На фильтрах непонятная гадость, видимо, зацвела вода в накопительных баках. Надо помыть». Мы выпустили три тонны воды, и какое-то время все было нормально. Но затем послышались крики: «Нас топит!» В дата-центре со стороны коридора пол был залит водой. При этом мы не видели, чтобы наши канализационные трубы протекали. Но оказалось, что под давлением нашего слива, разорвало стык канализации под рукомойником у уборщиц. В их помещении всё затопило, и вода через две стены протекла к нам.
Физическая безопасность дата-центра
Физическая безопасность — простая вещь, но о ней важно не забывать. В помещениях должны быть двери, а в них — замки. Ключи не должны доставаться случайным людям. Однажды мы были дата-центре, где арендовал места в стойках один из наших клиентов. Бабушка на входе выдала нам электронный ключ системы контроля доступа. Ключ был единственным для всех посетителей, поэтому кто из гостей посещал серверную, определяли только по журналу. А в журнал можно внести любую запись.
Мы зашли менять оборудование. Я обратил внимание на камеры, которые стоят прямо между рядов и фиксируют все, что происходит. Спустился вниз на вахту: у бабушки стоял монитор, и, наверное, она должна была в него смотреть. Но её это не интересовало, и мы спокойно прогулялись по стойкам других заказчиков и посмотрели, чем богаты конкуренты.
Пожаротушение
Чтобы организовать систему пожаротушения, нужно ответить вопросы:
- Нужно ли тушить то, что уже загорелось
- Как и где детектировать огонь или дым
- Где находятся вероятные точки возгорания
Тушить ли то, что загорелось
Если вы не хостинг-провайдер или речь не идет об огромном дата-центре, не всегда имеет смысл организовывать систему пожаротушения: часто бывает достаточно поставить датчики.
Когда серверная небольшая и на программном или кластерном уровне обеспечена отказоустойчивость, потеря одной стойки может не стоить затрат на систему пожаротушения.
Где находятся вероятные точки возгорания
Вероятные точки возгорания могут находится внутри помещения или снаружи.
Во внутренних помещения возгорания происходят достаточно редко — я не сталкивался со случаями, когда в дата-центре загорался сервер. Гораздо чаще загораются помещения с источниками бесперебойного питания, дымятся батареи или обогреватели в соседней комнате.
Когда мы проектируем дата-центры, чаще думаем о том, что находится вокруг: может ли огонь прийти снаружи. Поэтому обычно нет смысла тушить серверную: лучше построить пожаробезопасный периметр.
Классика пожаротушения — системы с инертным газом. Он вытесняет кислород из помещения и останавливает горение. Но если горение началось снаружи, инертный газ не спасёт — после того, как стена дата-центра прогорит и обвалится, в помещение поступит свежий кислород.
Самая действенная защита от огня — это пожарные стены. В больших дата-центрах строят машзалы, которые разделяют толстенной пожарной стеной на две части. Это нужно, чтобы если одна половина зала сгорит, хотя бы вторая осталась целой.
Однажды нас привлекли к проектировке дата-центра. В плане была предусмотрена пожарная стена с пределом горения до 6 часов. Она разделяла машзал на две небольшие зоны. Но при этом крыша здания имела деревянные элементы. Тогда мы внесли на обсуждение резонный вопрос: «Ребята, зачем нам здесь стена? Если загорится крыша, в противопожарной стене не будет смысла». К счастью, тогда мы убедили заказчика. Поэтому важно внимательное отношение к проектировке, а не просто формальный подход. Если в проекте дата-центра есть раздел «Пожаротушение и ОПС», это еще не значит, что ничего не сгорит.
Система пожаротушения должна быть простой
Однажды наш инженер проводил планово-профилактические работы. Он открыл документацию на систему пожаротушения и посмотрел, как она должна быть сделана. После этого отключил исполнительные устройства и газовый баллон и провёл тестирование. Но в документации не было указано, что система экстренно отключает питание во всей серверной. В результате встала работа.
Почему важно внимательно проектировать дата-центр и обращать внимание на детали
Я часто видел в дата-центрах клиентов одну и ту же ошибку. Она возникала из-за невнимательного проектирования. Представьте себе дизельный генератор, который работает в шумозащитном кожухе: открыт только выхлоп и решётка радиатора. Над ним установлена система порошкового пожаротушения. При возгорания пламя будет находится внутри кожуха. Порошок, который выпустит система, только на время погасит огонь, но не устранит очаг возгорания, который будет находиться внутри кожуха. Именно это невнимание к деталям приводит затем к технологическим авариям.
Системы порошкового пожаротушения нельзя использовать в серверных помещениях. В случае пожара порошок действительно остановит реакцию горения, но оборудование выйдет из строя — серверы втянут порошок, и он осядет на вентиляторах и компонентах.
Как упростить систему пожаротушения
Чем проще система, тем более она работоспособная и простая в содержании. Пример такой системы — специальные плитки STEG, которые устанавливаются в стойке с серверами. Если помещение нагревается, плитки выпускают специальный газ, который тушит пожар. Такая система не требует датчиков возгорания.
Что запомнить про систему пожаротушения
- Иногда устанавливать систему гашения пламени в серверной невыгодно.
- Вероятные точки возгорания обычно находятся снаружи серверной, а не внутри.
- Самая действенная защита от огня — противопожарные стены.
- В серверном помещении нельзя применять порошковые системы пожаротушения — порошок попадает в оборудование и портит его.
Вентиляция и климат в серверной
Вентиляция
Хотя в серверной не находятся постоянно люди, её помещение нуждается в хорошей вентиляции и очищении от пыли, которая накапливается с каждым визитом сотрудника.
Подготовка воздуха требует обслуживания и постоянно замены фильтров. Если в серверной 6 стоек, тратить деньги на вентиляцию бессмысленно.
Влажность
Слишком сухой воздух может привести к возникновению шагового статического разряда. Он образуется, когда при шаге человека возникает разность потенциалов. Заставить всех людей ходить в антистатических браслетах, подключенных к шине заземления, невозможно, поэтому в серверном помещении необходимо позаботиться о влажности.
Диспетчеризация
К вопросу мониторинга и диспетчеризации можно подойти тремя путями.
1. Не внедрять систему мониторинга и диспетчеризации.
Отказ от системы диспетчеризации может быть рабочим вариантом. Такой выбор приводит к тому, что аварии все равно случаются, но они становятся фатальными.
2. Использовать датчики, установленные на оборудовании.
Для диспетчеризации можно использовать датчики, установленные на оборудовании: серверах, коммутаторах, PDU.
Встречаются системы диспетчеризации дата-центров, основанные на встроенных в оборудование датчиках. На современном сервере, как правило, установлено 2-3 датчика температуры на входе, на процессоре, на блоке питания и на выходе: можно увидеть состояние оборудование и климат в серверной.
Но по внутренним датчикам нельзя определить, работает ли сейчас кто-то с оборудованием, не загорожен ли поток воздуха возле сервера и другие тонкие моменты. Например, не стоит ли сейчас перед стойкой инженер и не открыты ли стенки шкафа, и не разобран ли он вообще.
3. Использовать решение для диспетчеризации от сторонних вендоров.
Специализированное решение сторонних вендоров или собранное самостоятельно на контроллерах позволяет установить отдельные датчики потока воздуха, датчики температуры, влажности и другие. В этом случае вы можете подключить специализированное ПО для мониторинга окружения в дата-центре.
Пропишите политику реакции на проблему
Главная сложность диспетчеризации не в том, чтобы зафиксировать проблему, а в том, чтобы её решить. Поэтому важно заранее прописать, что делать при возникновении критической ситуации.
Если инженер-оператор видит, что датчик ЛТ-31 на стойке 12 неожиданно стал показывать 32 градуса, он должен точно понимать, звонить ли другим специалистам или не делать ничего.
Как построить линии зависимости
У одного из наших клиентов вышла из строя PDU. Началась паника: ведь речь идет о панели питания, к которой подключены серверы. В дата-центр срочно вызвали инженеров. Оказалось, что PDU стоит в пустой стойке, и к ней не подключен ни один сервер.
Один из подходов к диспетчеризации, которые помогает уменьшить волнения — построение линий зависимости. В такой системе если один из датчиков отклоняется от нормальных показателей, можно проверить все зависимые датчики на линии и принять решение.
В случае с PDU построение линии зависимости можно реализовать так:
- Датчики снимают ампераж и вольтаж на PDU;
- Снимаются показания с блоков питания на всех серверах, которые подключены к PDU;
- Снимается температура серверов;
- Показано, включены или выключены зависимые серверы.
Автоматизируйте управление дата-центром
Нельзя обезопасить серверную от человеческих ошибок, но можно максимально исключить людей из всех возможных процессов. Даже там, где автоматизация обходится дороже, чем работа человека.
Почему важно управлять доступом сотрудников к системе и записывать их действия
Большинство проблем в дата-центрах происходят из-за человеческих ошибок: например, кто-то получил доступ к системе и сломал её.
Разделяйте ЦОД на системы: инженерную инфраструктуру, физическую инфраструктуру охлаждения питания, вентиляцию, сетевую и серверную. Каждая группа сотрудников должна отвечать за свою рабочую область и не иметь доступ к смежным системам.
Чтобы разобраться в причинах аварии, нужно обладать информацией и со стороны и сетевой, и инженерной инфраструктуры. В системе мониторинга должны быть видны все пользователи и их действия. Например, операции на контроллере управления серверами, входы в систему СКД, входы в помещение. Тогда не возникнет ситуации, когда сотрудники перекладывают ответственность за проблемы друг на друга.
Главный секрет строительства ЦОДа: проектируйте 9 месяцев, стройте три месяца
Часто на постсоветском пространстве проектирование расценивается как формальный этап для начала работ. Большинство проектировщиков серверных помещений копируют одинаковые проекты — занимаются фондовым проектированием. И очень редко к проектировке подходят как к инструментарию для строителя, инженера, интегратора.
Попытка отдать все этапы проектирования дата-центра в разные руки заранее обречена на провал. Чтобы построить надежный дата-центр, можно:
- Обратиться в компании, которые специализируются на строительстве ЦОДов.
- Привлечь консультантов. Например, к нам часто обращаются за экспертизой проектные организации.
Как-то раз один мой крайне интересный преподаватель сказал про строительство ЦОДов:
Спешка в проектировании приводит к нелепым ошибкам, о которых я рассказал. Исправлять их сложно и дорого.
Управляйте дата-центром с DCImanager
Специалисты X NET помогут правильно спроектировать серверную или устранить инженерные ошибки для клиентов в России и Казахстане. А чтобы в дальнейшем инфраструктура работала без аварий, рекомендуем платформу DCImanager.
Контролирует состояния дата-центра: собирает метрики по потреблению питания, температуре, трафику, корректной работе инфраструктуры, сигнализирует о проблемах.
Управляет оборудованием: серверами, сетевыми устройствами, PDU и другими устройствами.
Управляет IT-активами по системе ITAM от планирования закупа до вывода из эксплуатации. DCImanager контролирует заполнение стоек, ведет инвентаризацию оборудования и учет адресного пространства.