Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где-то далеко ломается кластер

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
DL360 — сервер на Pentium I под горячую замену. Где-то далеко в Сибири под постоянной нагрузкой уже много лет трудится его брат-близнец. Если он выйдет из строя, у нас есть замена, позволяющая просто продолжить работу без кардинальной перенастройки

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
А вот с такой картины часто начинается утро на выезде

Доброе утро! Меня зовут Александр, я работаю руководителем сервисной команды КРОК.

По всей стране есть много объектов, где выход из строя кластера сразу ведёт к попаданию местного главного в телевизор. Это разные НИИ, промышленные предприятия, узлы банков, страховых, объекты нефтяных компаний, аэропорты и так далее. А мы ставим туда железо, софт и всё это держим на поддержке.

Начнём с того, что монтажей без приключений почти не бывает. Хорошо, если нам просто забыли дать питание или сеть. Хуже, когда серверная стойка стоит снаружи здания, потому что кто-то неправильно указал размеры двери. Ещё бывают моменты вроде: «Парни, мы всё подготовили, подключили, только есть нюанс — ваш сервер при разгрузке уронили. Ну, всего пару раз». Сейчас я расскажу и покажу, как выглядит наша работа.

Смысл работы

За время работы в КРОК я объездил почти всю страну на монтажах и поддержке. Сейчас я уже руковожу отделом, поэтому сам езжу очень редко.

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
Моё рабочее место. Папок, как видно, больше, чем железок

Обычный сценарий работы боевой смены такой: сидим и ждём вызова. Когда что-то ломается, у нас есть довольно жёсткие нормативы по времени устранения поломки. К примеру, на критичных объектах в Москве время замены железа — 4 часа от обращения. В Новосибирске и других городах тоже есть особо важные объекты, благо сейчас проблем с бронированием билетов нет.

От команды, которая ждёт вызова, требуется быть на месте и дежурить. Как правило, бойцы в это время либо ковыряют новое железо и изучают его, либо занимаются самообучением. В общем, тренируемся и повышаем квалификацию.

Иногда облизываемся на новые решения и заказываем их себе «на посмотреть». Из этого получается много интересных проектов — начиная от системы освещения офиса, подстраивающейся под погоду и открытые окна, и заканчивая разными решениями для нашей же безопасности.

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
Испытания

Ещё часть инженеров занимается штатными монтажами и обслуживанием. Им не надо срываться и бежать к терминалу либо нестись в аэропорт. Они заранее знают, что, где, как и когда. Легче от этого не становится, потому что, повторюсь, каждый монтаж — это отдельное приключение. И готовиться к нему тоже лучше тщательно, что на практике — куда более нервная работа, чем спешить на помощь, как Чип и Дейл.

Вне боевой смены мы также работаем с нашим железом, но уже можем делать это за пределами офиса. Ещё один важный аспект — наши инженеры. Это люди с очень большим практическим опытом, и некоторые из них часто выступают как для внутреннего обучения, так и на разных технических конференциях. За исключением тех бойцов, кто работает под сервис, конечно. Хотя в теории, если у нас будет сразу несколько критичных ситуаций одновременно, штатный инженер также может прервать своё выступление на полуслове и убежать. Но такое на моей памяти было только раз.

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
Кубки не мои. Но очень хороши для того, чтобы, например, складывать туда всякие мелкие детали, чтобы не потерялись.

Выезд на монтаж

Например, в случае с штатной инсталляцией кластера, как правило, нужен не один специалист. Один — это человек, который занимается операционкой и собственно настройкой кластера, другой — это стораджист, а третий — прикладник, в зависимости от того, ставит ли сам заказчик приклад или нет. Бывает, когда и двумя обходимся, сетевики часто на месте бывают, но случается, что иногда вообще никого из IT на конкретной точке нет.

Начинается с разгрузки. Бывает, бьют железо. Мы фотографируем, когда нужно доказать неисправность (например, что оборудование пришло битым по вине транспортной компании). Потом долго разбираемся.

Предположим, всё пришло как надо. Ставим систему, тот же кластер. Всё хорошо: есть спецификация, оборудование, софт, работаем по настройке, есть какие-то договорённости между менеджерами. Всё сто раз обсуждено, все сложные моменты по опыту оговорены. Приезжает инженер, и он с понимает, что идеальный мир — это не здесь.

Он подходит, скажем, к сетевику и говорит: «Мне надо восемь интерфейсов выделить на коммутаторе». А ему говорят: «У меня только шесть, а еще два будут завтра или послезавтра. Надо их со склада заказать». Инженер бегает, у всех что-то просит. Когда ему всё дадут, когда ему ткнут место в стойке, электричество подключат, подтянут к нему кабели — может пройти и пара дней.

Потом он начинает звать админов, которые его прописывают в домен, потом зовет спецов по СУБД, которые ему начинают рассказывать, как у них всё устроено, админы его тоже вводят в свою систему. Каждый раз он работает с кем-то новым, и не факт, что подготовленным. А система боевая, и инженер паролей не знает, значит, рядом должны сидеть админ и вбивать это для него. Им тоже не очень весело приходится. Да и люди могут разные. Например, SQL-щик любит выпить, а кто-то ходит в майке с Симпсонами в минус тридцать, потому что его жена бросила. К каждому нужно найти подход. Понятно, что все эти люди помогают, потому что есть общая задача, но всё равно есть какой-то фан в том, что тебе нужно от каждого что-то узнать, чтобы работу свою закончить. Каждый тебе должен объяснить, как и что устроено. Очень часто документация с реальностью несколько расходится, и концепция монтажа может поменяться. Или вдруг выясняется, что определённый тип пакетов в сети запрещён по политике Москвы (а пояс другой, и в Москве сейчас глубокая ночь, не позвонишь).

Примерно на этой стадии может выясниться, что бэкапа уже год, как не было. Ха-ха. И начинается, опять же, очень много эротических приключений. Мы, конечно, можем и без бэкапа ставить, формально мы, вроде, ни при чём. Но тогда негатив останется: мол, приехал какой-то …, сломал тут все и уехал.

Комплектующие

Отдельно стоит сказать про наш склад. У нас около восьмидесяти тысяч наименований под горячую замену на складе. Понятное дело, когда у тебя SLA на замену 4 часа, склад должен отдать железку раньше, чем ты спустишься на лифте. Поэтому наши кладовщики методично ведут точный учёт и всё проверяют.

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
Система учета говорит: «Твоя железка в коробке такой-то в блоке таком-то». Вне зависимости от того, мелкая она или крупная.

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
Подходишь — сразу видно, что лежит тут

Как работает инженерная служба КРОК — и что происходит, если в 3 ночи где то далеко ломается кластер
В одной из секций склада у нас «музей» — место, где лежат вот такие экспонаты

Они реально рабочие и реально нужны для горячих замен. Когда система сложная, критичная и «не трогай, пока работает», проще менять вышедший из строя узел на точно такой же, чем перенастраивать и переделывать. Поэтому мы и храним резервы, достойные музея.

Автор:

Источник

Оставить комментарий