Архив рубрики ‘управление инцидентами’

Если инцидент закрыт, это не значит, что проблема решена

Пятница, 23:40, прод лежит. Дежурный поднимает сервис за сорок минут: перезапустил контейнер, всё заработало. Инцидент закрыт, MTTR красивый, все спать. Через десять дней то же самое: тот же сервис, та же ошибка в логах. Снова подняли и снова закрыли. MTTR красивый, баг живой