Что мы считаем, когда считаем эффективность: от парового двигателя до нейросетей

24
Янв
2026

Что мы считаем, когда считаем эффективность: от парового двигателя до нейросетей

"Новые времена" (Modern Times, 1936) — «Новые времена» (Modern Times, 1936)

Когда я писал статью про философию науки и тестирование, честно не ожидал, что её кто-то прочитает. Декарт, Поппер, Лакатос… не самые очевидные темы для Хабра. Но текст неожиданно вызвал живой интерес. Комментарии заставили думать дальше.

Один особенно зацепил: «Мысль про глубину проверок выглядит здраво, но любая шкала из 6 уровней довольно быстро рискует превратиться в KPI: срочно всем довести тесты до 4 уровня». И дальше: «Формальное усложнение проверок без реального понимания, зачем этот тест вообще существует».

Попадание в точку. После этого захотелось копнуть глубже. Посмотреть, откуда вообще взялась идея измерять эффективность работы. Как она менялась. И почему любая система измерения рано или поздно начинает работать против своих создателей.

Толчком стал разговор с сыном. Летом мы обсуждали промышленные революции, и его эта тема неожиданно заинтересовала. Я полез в свои студенческие материалы по истории экономики, начал вспоминать, перечитывать. И понял: история метрик эффективности объясняет очень многое из того, с чем мы сталкиваемся сегодня.

Проблемы, которые я вижу в своей работе, не новы. Их решали на фабриках XIX века. Их решали на конвейерах Форда. Их решали в Toyota. Каждая эпоха находила свой ответ. И каждый ответ со временем превращался в новую проблему.

Эта статья представляет собой попытку проследить эволюцию идеи эффективности через четыре промышленные революции. Примеры я привожу из области обеспечения качества ПО, потому что это моя профессия. Но сами принципы универсальны. Они работают для любого производства, любой отрасли, любой деятельности, где пытаются измерить результат.

Первая революция: больше значит лучше

Конец XVIII века. Паровые машины меняют мир. Мануфактуры вытесняют ремесленные мастерские. Впервые в истории человек может производить больше, чем нужно для выживания. Возникает вопрос, который раньше не имел смысла: как измерить, насколько хорошо работает производство?

Ответ эпохи был прост: считать произведённое. Сколько ярдов ткани. Сколько тонн угля. Сколько единиц товара. Больше означает лучше. Эффективность равна количеству.

Адам Смит в «Исследовании о природе и причинах богатства народов» (1776) описал знаменитый пример с булавочной фабрикой. Один ремесленник делает двадцать булавок в день. Десять рабочих, разделивших операции между собой, делают сорок восемь тысяч. Разница в 2400 раз. Вывод казался очевидным: дробите работу на операции, считайте результат, наращивайте объём.

Чарльз Бэббидж развил эти идеи в «Экономике машин и мануфактур» (1832). Тот самый Бэббидж, который придумал механическую вычислительную машину. Он предложил анализировать стоимость каждой операции, сравнивать затраты и выпуск. Фактически это был первый систематический подход к тому, что мы сейчас называем анализом эффективности затрат.

Эндрю Юр в «Философии мануфактур» (1835) довёл логику до предела. Он утверждал, что фабрика представляет собой механизм, а человек является его элементом. Чем точнее элемент выполняет функцию, тем эффективнее механизм. Книга вышла за двенадцать лет до «Манифеста коммунистической партии». Маркс её внимательно читал.

Слепое пятно эпохи: качество. Оно просто не измерялось. Брак списывался как неизбежные потери. Если из ста произведённых единиц двадцать оказывались негодными, решение было простым: произвести сто двадцать. Человек в этой системе тоже расходный материал. Его эффективность измеряется количеством повторений в единицу времени.

Эта логика прожила удивительно долго. И до сих пор живёт в головах. «Сколько звонков сделал?» «Сколько тикетов закрыл?» «Сколько строк кода написал?» Вопросы из той эпохи. Вопросы, которые не спрашивают о результате каждого действия.

Вторая революция: быстрее значит лучше

Конец XIX и начало XX века. Электричество, конвейер, массовое производство. Количество перестаёт быть ограничением. Машины могут производить практически бесконечно. Узким местом становится время. Эффективность переопределяется: важно не сколько, а как быстро.

Фредерик Тейлор публикует «Принципы научного менеджмента» (1911). Эта книга изменила мир. Тейлор работал на сталелитейном заводе и заметил, что рабочие сознательно замедляют темп. Они боялись, что если будут работать быстрее, часть из них уволят. Тейлор назвал это «систематическим уклонением от работы» и объявил войну.

Его решение: измерять всё. Каждое движение рабочего, каждую секунду операции. Хронометраж становится религией. Существует «один лучший способ» выполнения любой работы, и задача менеджмента состоит в том, чтобы найти его, зафиксировать и заставить рабочих следовать. Тейлор лично стоял с секундомером над рабочими и записывал каждое их движение.

Фрэнк и Лилиан Гилбрет довели идею до логического предела. Они разработали систему «терблигов» (Gilbreth наоборот), то есть единиц элементарного движения. Поиск, захват, перемещение, установка… каждый микроэлемент работы получил название и хронометраж. Они снимали рабочих на киноплёнку и анализировали кадр за кадром. Эффективность стала измеряться в миллисекундах.

Забавный факт: Лилиан Гилбрет применила те же принципы к домашнему хозяйству. Она спроектировала кухню, где всё расположено так, чтобы минимизировать количество движений. Современные кухни до сих пор проектируются по её принципам.

Генри Гантт создал диаграммы, которые носят его имя до сих пор. Визуализация времени, контроль сроков, планирование как наука. Если что-то нельзя показать на диаграмме Гантта, этого как будто не существует. Любой современный менеджер проекта узнает эти полоски.

Генри Форд реализовал эти идеи в масштабе. Конвейер представляет собой материализованный тейлоризм. Каждый рабочий выполняет одну операцию. Скорость ленты определяет темп. В 1913 году сборка автомобиля занимала 12 часов. К 1914 году всего 93 минуты. «Моя жизнь и работа» (1922) стала манифестом эффективности через стандартизацию.

Макс Вебер в «Хозяйстве и обществе» (1922) описал бюрократию как идеальную машину эффективности. Чёткие правила, иерархия, безличность. Рационализация как судьба современности. Вебер описывал это с тревогой, называл «железной клеткой». Менеджмент принял как руководство к действию.

Слепое пятно эпохи: человек. Не как ресурс, а как существо с мотивацией, творчеством, потребностью в смысле. Тейлоризм видел в рабочем функцию. Чарли Чаплин высмеял это в «Новых временах» (1936): человек, который не может перестать крутить гайки даже после окончания смены.

Хоторнские эксперименты 1920-30-х годов показали неожиданное. Исследователи меняли освещение на заводе Western Electric, чтобы найти оптимальный уровень для производительности. Производительность росла при увеличении освещения. Потом они уменьшили освещение, и производительность снова выросла. Оказалось, люди работают лучше, когда на них обращают внимание. Независимо от условий труда. Но это открытие ещё не было услышано.

В любой области наследие второй революции проявляется в фиксации на скорости. «Тесты проходят за 15 минут.» «Среднее время звонка составляет 3 минуты.» «Тикет закрывается за час.» Метрики из этой эпохи ничего не говорят о том, что именно за это время достигается. Но звучат убедительно на совещании.

Третья революция: стабильнее значит лучше

Вторая половина XX века. Компьютеры, автоматизация, глобальная конкуренция. Производить много и быстро научились все. Побеждает тот, кто производит стабильно и без брака. Эффективность переопределяется снова: важно не количество и не скорость, а соответствие стандарту.

Парадокс этой революции: идеи родились в Америке, но реализовались в Японии.

Уильям Эдвардс Деминг приехал в Японию в 1950 году читать лекции о статистическом контроле качества. Американские компании его идеи проигнорировали. Они и так были на вершине мира, зачем что-то менять? Японские компании, разрушенные войной, лишённые ресурсов и репутации, приняли идеи Деминга как откровение.

«Выход из кризиса» (1982) была написана уже после того, как японские компании начали побеждать американские на их собственном рынке. К тому моменту Toyota продавала в США больше машин, чем General Motors. Америка наконец заинтересовалась, что же такое рассказывал этот старик японцам тридцать лет назад.

Четырнадцать принципов Деминга перевернули представление об эффективности. Качество является не инспекцией в конце, а встроенным свойством процесса. Вариативность становится врагом. Страх становится врагом. Численные нормы выработки становятся врагом. Эффективность достигается не давлением на работников, а улучшением системы.

Принцип номер десять особенно актуален: «Откажитесь от лозунгов, призывов и целевых показателей для рабочей силы, требующих нуля дефектов и нового уровня производительности». Деминг понимал: если установить цель «ноль дефектов», люди начнут скрывать дефекты, а не устранять их причины.

Джозеф Джуран предложил «Трилогию качества» (1986): планирование, контроль, улучшение. Качество можно проектировать заранее, а не отбраковывать постфактум. Это был сдвиг в мышлении: от реактивного к проактивному.

Тайити Оно создал производственную систему Toyota. «Производственная система Тойоты» (1978) представляет собой философию, а не набор техник. Устранение потерь (муда), точно вовремя (just-in-time), непрерывное улучшение (кайдзен). Эффективность понимается как поток, а не как партии. Запасы рассматриваются не как актив, а как замороженные проблемы.

Оно рассказывал историю: он пришёл на завод и увидел рабочего, который ждал, пока станок закончит операцию. «Почему он не делает что-то полезное?» спросил менеджер. Оно ответил: «Он делает самое полезное. Он наблюдает. Если он отойдёт, то не заметит, когда что-то пойдёт не так».

Каору Исикава разработал диаграмму «рыбья кость» (или диаграмму Исикавы), инструмент для системного анализа причин дефектов. Впервые проблема стала рассматриваться не как вина работника, а как симптом системы. Методы, материалы, машины, люди, среда составляют пять категорий причин, которые нужно исследовать.

Билл Смит в Motorola формализовал Six Sigma (1986). Магическая цифра: 3.4 дефекта на миллион операций. Статистика стала языком качества. Если нельзя измерить, нельзя улучшить. Если нельзя улучшить, нельзя управлять. DMAIC (Define, Measure, Analyze, Improve, Control) стал универсальным рецептом.

ISO 9001 (1987) стандартизировал управление качеством на глобальном уровне. Сертификация стала доказательством эффективности. Наличие процедур оказалось важнее результата. Если у вас есть документированный процесс и вы ему следуете, вы считаетесь «качественной» компанией. Даже если процесс бессмысленный.

Роберт Каплан и Дэвид Нортон предложили «Сбалансированную систему показателей» (1992) как попытку выйти за пределы финансовых метрик. Четыре перспективы: финансы, клиенты, процессы, обучение. Признание того, что одного числа недостаточно. Но всё равно числа.

Слепое пятно эпохи: инновация. Системы качества отлично работают для повторяемых процессов. Но стандарт может устареть. Соответствие процедуре не гарантирует результата. Компания может идеально выполнять процессы, которые больше никому не нужны.

Kodak служит классическим примером. Компания имела все сертификаты качества, идеальные процессы, высочайшие стандарты производства плёнки. И обанкротилась, потому что мир перешёл на цифровую фотографию. Которую, кстати, изобрели инженеры Kodak в 1975 году. Но руководство решило не развивать направление, чтобы не каннибализировать продажи плёнки. Процессы были идеальны. Результат оказался катастрофой.

Наследие третьей революции везде одинаковое: метрики стабильности и соответствия. В тестировании это pass rate и покрытие кода. В продажах это конверсия воронки. В поддержке это SLA. «95% тестов проходят, покрытие 80%.» «Конверсия 3%.» «SLA выполняется на 99%.» Эти метрики говорят о стабильности процесса. Они не говорят о том, достигается ли реальный результат. Dashboard зелёный, а ошибки в продакшене. Воронка стабильна, а выручка падает.

Интерлюдия: как метрики становятся врагами

Прежде чем перейти к четвёртой революции, нужно поговорить о феномене, который объединяет все эпохи. Любая система измерения рано или поздно начинает работать против своих создателей.

Чарльз Гудхарт, экономист из Банка Англии, сформулировал это в 1975 году: «Когда мера становится целью, она перестаёт быть хорошей мерой». Изначально он говорил о денежной политике, но закон оказался универсальным.

Дональд Кэмпбелл, социолог, выразил ту же мысль ещё жёстче в 1979 году: «Чем больше количественный показатель используется для принятия социальных решений, тем сильнее он подвержен коррупционному давлению и тем больше он будет искажать и извращать социальные процессы, которые призван мониторить».

Механизм прост. Сначала вы выбираете метрику, которая коррелирует с тем, что вам важно. Потом вы начинаете по ней оценивать людей. Люди понимают правила игры и начинают оптимизировать метрику. Не то, что за ней стоит, а саму метрику. Корреляция разрушается. Метрика перестаёт измерять то, ради чего создавалась.

Примеры везде.

Научные журналы оцениваются по импакт-фактору. Учёные начинают гнаться за цитируемостью вместо значимости открытий. Появляются «картели цитирования», когда группы ссылаются друг на друга для накрутки показателей.

Wells Fargo ставил сотрудникам план по количеству открытых счетов. Сотрудники начали открывать фиктивные счета без ведома клиентов. Скандал стоил банку миллиарды долларов и репутацию.

В разработке ПО то же самое. Ввели количество закрытых тикетов как KPI и получили дробление задач на мелкие части. Ввели покрытие кода и получили тесты без проверок, которые просто проходят по строкам. Ввели количество коммитов и получили бессмысленные правки форматирования.

В продажах. Ввели количество звонков и получили короткие бессмысленные разговоры. Ввели конверсию и получили отказ работать со сложными клиентами. Ввели средний чек и получили навязывание ненужных услуг.

В поддержке. Ввели время закрытия тикета и получили закрытие без решения проблемы. Ввели NPS и получили выпрашивание оценок у лояльных клиентов.

Один разработчик рассказывал: «У нас было требование 80% покрытия. Я написал тест, который вызывает все методы с null и ловит NullPointerException. Покрытие выросло до 90%. Тест не проверял ничего полезного».

Один продажник: «У нас KPI на количество встреч. Я назначаю встречи с людьми, которые точно не купят, просто чтобы закрыть план. Трачу своё время и их».

Это не злой умысел. Это рациональное поведение в системе с плохо спроектированными стимулами. Люди делают то, за что их вознаграждают. Если вознаграждают за метрику, а не за результат, люди оптимизируют метрику.

Комментатор под статьёй про EVA был абсолютно прав: любая шкала из шести уровней рискует превратиться в «срочно всем довести тесты до 4 уровня». Формальное усложнение проверок без понимания, зачем тест существует. В итоге тесты с высоким уровнем глубины, но все те же слепые зоны в тестовых сценариях.

Защита от этого лежит не в самой методологии, а в культуре применения. Но об этом позже.

Четвёртая революция: глубже значит лучше

Наше время. Искусственный интеллект, большие данные, сложные адаптивные системы. И неожиданное открытие: простые метрики врут. Не потому что их неправильно считают. Потому что сам акт измерения искажает измеряемое.

Джерри Мюллер в «Тирании показателей» (2018) систематизировал критику. Образование, медицина, полиция, бизнес… везде одна история. Фиксация на измеримом убивает неизмеримое. Книга стала манифестом для всех, кто устал от бессмысленных KPI.

Мюллер не против измерений. Он против «метрической фиксации», то есть веры в то, что всё важное можно и нужно измерить числами, и что решения на основе чисел всегда лучше решений на основе опыта и суждения.

Нассим Талеб в «Антихрупкости» (2012) показал ещё одну сторону проблемы. Оптимизация под известные метрики делает систему хрупкой. Она отлично работает в предсказуемых условиях и разваливается при столкновении с неожиданным. «Чёрные лебеди» бьют именно по оптимизированным системам.

Талеб приводит пример: авиакомпании оптимизировали расписание так, чтобы самолёты проводили минимум времени на земле. Эффективность выросла. А потом случилось 11 сентября, и вся система встала. Не было буферов, не было резервов. Оптимизация убила устойчивость.

Джеймс Скотт в «Благими намерениями государства» (1998) ввёл различение между «техне» и «метис». Техне представляет собой формализуемое знание, то что можно записать в инструкции и измерить. Метис означает практическую мудрость, которая приобретается опытом и не поддаётся формализации.

Метрики измеряют техне. Метис остаётся невидимым. И часто уничтожается во имя измеримой эффективности.

Скотт описывает «научное лесоводство» в Германии XVIII века. Чиновники решили оптимизировать леса для производства древесины. Вырубили «лишние» виды деревьев, высадили ровные ряды елей. Урожай древесины в первом поколении вырос. Во втором поколении лес начал болеть. В третьем начал умирать. Оказалось, что «лишние» виды, кустарники, мёртвые деревья были частью экосистемы. Без них лес не мог существовать.

Аналогия с корпорациями очевидна. Оптимизация под квартальные показатели убивает долгосрочную устойчивость.

В философии науки есть принцип, который помогает понять происходящее. Карл Поппер ввёл критерий фальсифицируемости: научная теория должна предсказывать, что может её опровергнуть. Если теория объясняет любой исход, она не объясняет ничего.

Применим к метрикам. Хорошая метрика должна уметь показать провал. Метрика, которая всегда зелёная, бесполезна. Если ваш dashboard никогда не показывает проблем, проблема в dashboard.

Тест, который не может упасть, не является тестом. Покрытие кода, которое не снижается при удалении проверок, не измеряет качество проверок.

В разработке ПО осознание приходит через практику.

Google опубликовал «State of Mutation Testing at Google» (ICSE 2018). Ключевой вывод: покрытие кода не коррелирует с качеством тестов. Тест, который проходит через строку кода, и тест, который проверяет результат выполнения этой строки, являются разными тестами.

Мутационное тестирование предлагает другой критерий: тест хорош, если он способен обнаружить искусственно внесённую ошибку. Берём код, вносим маленькое изменение (мутацию), запускаем тесты. Если тесты прошли, они бесполезны. Тест, который не убивает мутантов, не ловит и реальные ошибки.

Microsoft Research в работе «State Coverage» (SOFSEM 2012) предложил смотреть не на покрытие кода, а на покрытие состояний. Какие значения переменных проверены? Какие комбинации условий? Код может быть покрыт на 100%, но состояния только на 10%.

Простой пример. Функция принимает возраст и возвращает категорию: «ребёнок», «взрослый», «пенсионер». Тест, который проверяет только возраст 25 лет, покрывает весь код функции. Но не проверяет граничные случаи: 0, -1, 17, 18, 59, 60, 150. Покрытие кода 100%. Покрытие состояний около 15%.

Обзорная статья «The Oracle Problem in Software Testing» (IEEE TSE 2015) систематизировала проблему, которую исследователи формулировали с 1980-х годов: как тест узнаёт, что результат правильный? Это философский вопрос в техническом обличье.

Когда вы пишете assert response.status == 200, откуда вы знаете, что 200 является правильным ответом? Из документации? А если документация устарела или ошибочна? Из здравого смысла? А если система сложная и здравый смысл не работает?

Проблема оракула представляет собой проблему источника истины. И она не имеет технического решения. Только организационное: кто-то должен знать, как система должна работать. И это знание должно быть явным, проверяемым и актуальным.

Исследование Google «Accelerate» (2018) эмпирически проверило, какие метрики действительно коррелируют с успехом. Авторы изучили тысячи команд и компаний. Из сотен возможных показателей значимыми оказались четыре:

Частота развёртывания (как часто код доходит до пользователей)
Время от коммита до деплоя (как быстро изменение становится доступным)
Время восстановления после сбоя (как быстро чините, когда сломалось)
Процент неудачных изменений (как часто деплой ломает продакшен)

Не количество тестов. Не покрытие кода. Не скорость прогона. Не pass rate.

Эти четыре метрики называют DORA metrics. Они измеряют не активность, а результат. Не «сколько сделали», а «насколько хорошо работает система доставки ценности».

Слепое пятно четвёртой эпохи: мы ещё не знаем. Мы находимся в середине революции и не видим её границ. Но догадки есть.

Возможно, слепое пятно заключается в самой идее измерения. Мы так увлечёны поиском правильных метрик, что забываем: некоторые вещи нельзя измерить в принципе. Доверие в команде. Качество архитектурных решений. Технический долг, который накапливается незаметно. Удовлетворённость пользователей тем, чего они не могут артикулировать.

Возможно, следующая революция будет не про «ещё более глубокие метрики», а про «меньше метрик, больше суждения».

Закономерность: от количества к качеству качества

Если посмотреть на четыре революции с высоты, видна закономерность. Каждая эпоха отвечала на вопрос «что такое эффективность». И каждый ответ создавал новое слепое пятно.

Эпоха	Главный вопрос	Ответ	Слепое пятно
Первая	Сколько?	Количество	Качество
Вторая	Как быстро?	Время	Человек
Третья	Насколько стабильно?	Стандарт	Инновация
Четвёртая	Насколько глубоко?	Смысл	?

Направление движения понятно: от измерения объёма к измерению глубины. От «сколько сделано» к «насколько хорошо сделано каждое». От «соответствует ли стандарту» к «решает ли реальную проблему».

Это не отмена предыдущих метрик. Количество по-прежнему важно. Скорость по-прежнему важна. Стабильность по-прежнему важна. Но их недостаточно. Нужен ещё один слой: метрики качества самого качества.

И, возможно, понимание того, где метрики заканчиваются и начинается экспертное суждение.

Что это значит для тестирования (и не только)

Вернёмся к тому, с чего начали. Метрики автоматизации тестирования прошли ту же эволюцию в миниатюре. Но то же самое можно сказать о любой области: продажах, поддержке, разработке, HR, образовании.

Первая эпоха: считаем количество. В тестировании это количество тестов. В продажах это количество звонков. В поддержке это количество закрытых тикетов. Больше означает лучше. Никто не спрашивает о качестве каждой единицы. «У нас 10 000 автотестов!» звучит как достижение. Пока не выясняется, что 8 000 из них проверяют одно и то же.

Вторая эпоха: измеряем скорость. Прогон тестов должен быть быстрым. Звонок клиенту должен быть коротким. Тикет должен закрываться за час. Параллелизация, оптимизация, автоматизация. Отлично! Но непонятно, решается ли реальная задача. Зато быстро не решается.

Третья эпоха: следим за стабильностью. Pass rate, SLA, NPS. Процесс под контролем. Dashboard зелёный. Метрики в норме. Ошибки всё равно проскакивают в продакшен. Клиенты всё равно уходят. Но dashboard зелёный!

Четвёртая эпоха: смотрим на глубину. Не сколько тестов, а что каждый тест проверяет. Не сколько звонков, а какую проблему решил каждый. Не сколько тикетов закрыто, а доволен ли клиент. Не «процесс работает», а «результат достигнут».

Это не теория. Я как-то взял выборку из 50 автотестов API и посмотрел на assertions. Результаты:

34 теста проверяли только status code (200 OK и всё)
11 тестов добавляли проверку «тело ответа не пустое»
5 тестов детально проверяли содержимое ответа

Покрытие кода при этом было отличным. Процент успешных прогонов высоким. Дашборд зелёным. Все метрики в норме. При этом 68% тестов не заметили бы, если бы API вернул совершенно другие данные с тем же кодом 200.

Уверен, похожую картину можно найти в любой области. Количество звонков в норме, а продажи падают. Тикеты закрываются быстро, а клиенты жалуются. Код ревью проводится, а баги проходят в продакшен.

Закон Гудхарта универсален: метрика становится целью и перестаёт измерять то, ради чего создавалась.

Что с этим делать? Несколько принципов, которые я вынес из этой истории. Они работают для любой области, где есть метрики.

Принцип первый: метрика должна уметь показать провал. Если ваш показатель всегда хороший, он не работает. Перед внедрением любой метрики спросите: «При каких условиях она покажет красное?» Если таких условий нет или они нереалистичны, метрика бесполезна.

Принцип второй: измеряйте результат, а не активность. Количество тестов является активностью. Количество найденных ошибок ближе к результату. Количество ошибок, которые дошли до пользователей, ещё ближе. Количество звонков является активностью. Решённые проблемы клиентов являются результатом. Спросите: «Что изменится для конечного потребителя, если эта метрика вырастет?»

Принцип третий: остерегайтесь превращения метрики в KPI. Как только люди понимают, что их оценивают по показателю, они начинают оптимизировать показатель. Не то, что за ним стоит. Если нужен KPI, используйте его осторожно и меняйте регулярно. Иначе его захакают.

Принцип четвёртый: оставляйте место для суждения. Не всё можно измерить. Опытный специалист видит проблемы, которые не покажет никакой дашборд. Метрики дополняют экспертизу, не заменяют её. Числа без интерпретации остаются просто числами.

Принцип пятый: помните о контексте. Метрика имеет смысл только в контексте. Pass rate 95% для критичного платёжного сервиса означает катастрофу. Для экспериментального внутреннего инструмента может быть нормой. Конверсия 2% для холодных звонков считается отличной. Для тёплых лидов означает провал.

Вместо заключения

Эта статья не предлагает готовых решений. Она предлагает контекст.

Когда вы смотрите на дашборд с метриками (любыми метриками, в любой области), полезно понимать: эти цифры являются продуктом определённой эпохи и определённого способа думать об эффективности. Они отвечают на вопросы, которые были актуальны когда-то. Они могут не отвечать на вопросы, которые актуальны сейчас.

«Сколько?» представляет собой вопрос первой революции. «Как быстро?» представляет собой вопрос второй революции. «Насколько стабильно?» представляет собой вопрос третьей революции. «Насколько глубоко?» представляет собой вопрос четвёртой революции.

Все эти вопросы важны. Но если вы отвечаете только на первые три, вы живёте в прошлом веке. Технологически в XXI веке. Методологически в XX.

И ещё одно. Любая методология измерения рискует превратиться в очередной бессмысленный KPI. Это не повод отказываться от измерений. Это повод помнить, что измерения являются инструментом, а не целью. Карта не является территорией. Метрика не является качеством.

Когда я обсуждал всё это с сыном, он спросил: «А что будет после четвёртой революции?» Честный ответ: не знаю. Возможно, пятая революция будет про отказ от метрик в пользу чего-то другого. Возможно, про принципиально новые способы оценки, которые мы пока не можем представить. Возможно, мы поймём, что некоторые вещи измерять не нужно вовсе.

А пока просто подумайте: на какой вопрос отвечают ваши метрики? И на какой вопрос они не отвечают?

Где читать дальше

Первая революция:

Адам Смит «Исследование о природе и причинах богатства народов» (1776)
Чарльз Бэббидж «Экономика машин и мануфактур» (1832)

Вторая революция:

Фредерик Тейлор «Принципы научного менеджмента» (1911)
Генри Форд «Моя жизнь и работа» (1922)
Макс Вебер «Хозяйство и общество» (1922)

Третья революция:

Уильям Деминг «Выход из кризиса» (1982)
Тайити Оно «Производственная система Тойоты» (1978)
Каплан, Нортон «Сбалансированная система показателей» (1992)

Четвёртая революция:

Джерри Мюллер «Тирания показателей» (2018)
Нассим Талеб «Антихрупкость» (2012)
Джеймс Скотт «Благими намерениями государства» (1998)
Google «State of Mutation Testing at Google» (ICSE 2018)
«The Oracle Problem in Software Testing: A Survey» (IEEE TSE 2015)
Forsgren, Humble, Kim «Accelerate» (2018)

Философский контекст:

Томас Кун «Структура научных революций» (1962)
Карл Поппер «Логика научного исследования» (1934)

Автор: MDyuzhev

Источник

Опубликовано в DORA metrics, KPI, Six Sigma, закон гудхарта, измерение производительности, история менеджмента, промышленные революции, управление качеством, эффективность