Архив рубрики ‘разбор инцидентов’

Культура инцидентов. Почему поиск виновных на постмортемах убивает надёжность системы

Результат разбора любого инцидента — наказание виновного или виновных. Но наказание за ошибки не делает систему надёжнее. Вместо этого оно мотивирует скрывать недочеты. Единственный способ построить предсказуемо работающую ИТ‑инфраструктуру — создать среду, в которой инженеры добровольно и без страха рассказывают о том, что пошло не так. И это задача не HR, а системного менеджмента. О том, как этого достигнуть, делимся в статье. Природа ошибки в сложных системах

Blameless post‑mortem: как разбирать инциденты так, чтобы они не повторялись

Привет, Хабр! Blameless post‑mortem — подход к разбору инцидентов, при котором фокус смещается с вопроса «Кто виноват?» на вопрос «Что в системе позволило инциденту произойти?». Не потому что Вася не виноват (может, и виноват). А потому что наказание Васи не предотвращает следующий инцидент, а изменение системы — предотвращает. Подход пришёл из авиации, где после каждой […]