Архив рубрики ‘инцидент’

Если инцидент закрыт, это не значит, что проблема решена

Пятница, 23:40, прод лежит. Дежурный поднимает сервис за сорок минут: перезапустил контейнер, всё заработало. Инцидент закрыт, MTTR красивый, все спать. Через десять дней то же самое: тот же сервис, та же ошибка в логах. Снова подняли и снова закрыли. MTTR красивый, баг живой

Инцидент-менеджмент с нуля: практический гайд для растущих команд

Инцидент-менеджмент с нуля: практический гайд для растущих команд Типичность 3 часа ночи. Звонок от незнакомого номера. ”Пользователи не могут залогиниться, п****ц”.

Как принимать решения при сбоях в IT-системах: методы поддержки принятия решений

Введение: Когда простых решений недостаточно Представьте ситуацию: вечер, срабатывает тревога — ваш интернет-магазин лежит в самый разгар распродажи. В логах куча ошибок, но явной причины не видно. Знакомо? Вот тут-то и начинается самое интересное. Я 3 года проработал в отделе сопровождения информационных систем и накопил десятки подобных случаев. Расскажу, как принимать решения, когда стандартные «перезагрузи […]