Один скилл, четыре модели — что может пойти не так

08
Апр
2026

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает.

Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному.

Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать.

Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось.

Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал.

Эта статья — для тех, кто использует или пишет AI-скиллы и хочет понять, чего от них ожидать. Не научная работа, а практический эксперимент с цифрами. Весь код и данные — в репозитории, воспроизведите сами.

Скилл — это ТЗ для робота. Хорошее ТЗ.

Если вы не сталкивались со скиллами — объясню за минуту.

AI-скилл — это файл в формате markdown с инструкциями для языковой модели. Вот тебе роль, вот инструменты, вот порядок действий, вот что делать в особых случаях. Устанавливается в IDE (Cursor, VS Code, Claude Code) или передаётся через API. Модель читает инструкцию и пытается ей следовать.

Ключевое слово — «пытается». Как отметил автор подробного руководства по SKILL.md: скиллы не гарантируют исполнение — модель сама решает, следовать ли инструкциям. Это структурированное руководство, которое повышает стабильность, но не детерминированная автоматизация.

Программа при одинаковых входных данных всегда даёт одинаковый результат. Скилл — нет. Это не баг, это фундаментальное свойство: языковая модель не исполняет инструкции, она интерпретирует их. В статье O’Reilly это сформулировано точно: AI-системы ведут себя не как детерминированные компоненты, а как недетерминированные коллабораторы — одни и те же входные данные могут дать разные результаты.

Есть три уровня, на которых результат может разойтись. Первый — разные модели: Claude и GPT читают одну и ту же инструкцию, но «понимают» её по-разному. Второй — разные оболочки: Cursor и VS Code по-разному передают инструкцию модели. Третий — разные запуски: даже одна модель на одном и том же входе может выдать другой результат.

Один скилл. Четыре модели. 480 запусков.

На GitHub есть awesome-agent-skills с сотнями скиллов, GitHub Copilot ввёл свой стандарт Agent Skills, Anthropic, OpenAI и Google сошлись на похожем формате. Экосистема растёт. Но ни один скилл в репозиториях не указывает success rate и не помечен «протестировано на моделях X, Y, Z». Anthropic сами признали эту проблему в апреле 2026 года, выпустив eval-фреймворк для скиллов. Я решил проверить, насколько результаты расходятся на практике.

Я написал скилл для обработки входящих обращений пользователей. Тему выбрал универсальную — тикет-система. Каждая компания работает с обращениями, не нужно быть разработчиком, чтобы понять результаты.

Скилл делает три вещи: классифицирует обращение (баг, запрос на фичу, вопрос, жалоба), проверяет дубликаты в базе, создаёт задачу в трекере с правильным приоритетом. Или не создаёт — если обращение не требует задачи.

Я подготовил 10 тестовых обращений четырёх уровней сложности:

Простые — «не работает оплата картой, клиенты жалуются». Тут всё очевидно: баг, критический.
Неочевидные — «конкурент уже давно сделал интеграцию с Telegram, когда вы?». Это запрос на фичу, но сформулирован как жалоба. Нужно подумать.
Цепочки — «не могу войти, коллега тоже не может». Массовая проблема, нужно найти дубликат и привязать к нему. Или: два бага в одном сообщении — нужно создать две задачи.
Сдержанность — «спасибо, всё заработало, закройте тикет». Задачу создавать не нужно.

Прогнал через четыре модели — те, на которых реально строят продукты:

Модель	Цена за 1M токенов (вход)
Claude Sonnet 4.6	~$3
GPT-4.1	~$2
Gemini 2.5 Pro	~$2.50
DeepSeek V3	~$0.55

Все четыре — через OpenRouter, одним API-ключом, одинаковый формат запросов, temperature=0. Ключевые обращения — по 20 повторов, остальные — по 5. Итого 480 запусков со скиллом.

Три уровня сравнения. Чтобы понять, где заканчивается эффект обычного промпта и начинается вклад скилловой структуры, я прогнал ключевые обращения в трёх режимах:

Baseline — tools + голое обращение, без system prompt вообще.
Простой промпт — одна фраза вместо скилла: «Ты обработчик входящих обращений пользователей. Классифицируй тип обращения, поищи дубликаты в базе и создай задачу в трекере если нужно. Если обращение — вопрос или благодарность, задачу не создавай.»
Скилл — полный SKILL.md с правилами приоритетов, порядком шагов, таблицами типов, негативными инструкциями и описанием особых случаев.

Что считается успехом. Успешным считается запуск, в котором совпало всё: правильная классификация типа, приоритет в допустимом диапазоне, правильная последовательность вызовов инструментов, и правильное решение — создавать задачу или нет.

Это разведочный эксперимент, не статистическое исследование. 10 обращений достаточно, чтобы показать паттерны, но недостаточно для статистически строгих выводов. Числа округлены до целых.

Результаты

Скилл — это не просто длинный промпт

Первый вопрос, который я ожидал от читателей: «А может любой system prompt даёт такой же эффект? Зачем подробный скилл, если достаточно написать три предложения?»

Вот зачем три уровня сравнения. Результаты по ключевым обращениям (кейсы 1, 5, 7, 9):

Модель	Baseline	Простой промпт	Скилл
Claude Sonnet 4.6	75%	65%	78%
GPT-4.1	55%	75%	78%
Gemini 2.5 Pro	15%	70%	73%
DeepSeek V3	5%	0%	62%

Один скилл, четыре модели — что может пойти не так - 1

Для GPT и Gemini картина предсказуемая: простой промпт даёт основной подъём, скилл добавляет ещё немного сверху. Логично — модель получила задачу, стала работать лучше.

Но у Claude и DeepSeek — сюрпризы.

Claude с простым промптом стал хуже, чем без промпта. 75% baseline → 65% с простым промптом. Короткая инструкция не помогла — она навредила. Зато подробный скилл поднял до 78%. Почему так? Вероятная причина: без промпта Claude опирается на собственное обучение и принимает решения свободно. Короткий промпт задаёт рамку, но не даёт достаточно деталей — модель начинает «следовать инструкции», но инструкция слишком скупа, и модель теряет уверенность там, где без промпта действовала правильно. Подробный скилл решает эту проблему: рамка есть, и деталей достаточно. Сильная модель либо разбирается сама, либо ей нужны детальные инструкции. Полумеры — хуже обоих вариантов.

DeepSeek с простым промптом — 0%. Ноль процентов. Все 20 запусков — ошибки. Половина — вообще не вызвал инструменты, половина — передал неправильные параметры. А со скиллом тот же DeepSeek показывает 62%. Для этой модели разница между простым промптом и подробным скиллом — это разница между нерабочей и рабочей системой.

Вывод: скилл — это не просто «system prompt, но длиннее». Для разных моделей он работает принципиально по-разному. И именно скилловая структура (правила приоритетов, порядок шагов, негативные инструкции, описание особых случаев) создаёт ценность — не сам факт наличия промпта.

Простые задачи — почти все справились

На прямолинейных задачах (со скиллом) картина ровная:

Модель	L1 (простые)
Claude	100%
GPT-4.1	100%
Gemini	91%
DeepSeek	82%

Даже DeepSeek за $0.55 справляется в четырёх случаях из пяти. «Оплата не работает» → баг → критический — тут все молодцы. Для простой маршрутизации и первичной классификации дешёвая модель со скиллом — рабочий вариант. Экономия по сравнению с Claude — в шесть раз.

Когда НЕ делать — тоже все молодцы

Сдержанность — 100% у всех четырёх моделей. Ни одна не создала тикет на «спасибо, всё заработало» и на вопрос «какие форматы поддерживаете?». Негативные инструкции («когда НЕ создавать задачу») — самая надёжная часть скилла.

На простом и на сдержанности — всё хорошо. А вот дальше начинается цирк.

Ловушки — где DeepSeek паникует

На неочевидных задачах DeepSeek проваливается до 58%.

Обращение 5: пользователь раздражённо пишет «ваш конкурент уже давно сделал интеграцию с Telegram, когда вы?». Claude видит запрос на фичу — человек хочет конкретную функциональность. DeepSeek видит разъярённого клиента и создаёт жалобу с высоким приоритетом. Как стажёр, который услышал повышенный тон и побежал к директору.

Обращение 4: «перешли на новый тариф, в личном кабинете старая цена, деньги списались правильно». Claude понимает — деньги в порядке, проблема только в отображении, приоритет средний. DeepSeek видит слово «деньги» и ставит критический.

Claude и GPT — 100% на неочевидных задачах. Они умеют читать контекст: «деньги списались правильно» = не критично, «потом всё работает» = не критично. DeepSeek читает ключевые слова, а не контекст.

GPT не умеет читать до конца

Обращение 8: «мне третий раз за неделю приходит письмо о продлении, хотя я уже продлил. Плюс в мобильном приложении кнопка «Поддержка» ведёт на 404». Две проблемы в одном сообщении.

Claude — 100%: видит обе проблемы, создаёт две задачи. Gemini — 100%. DeepSeek — 67%. А GPT-4.1 — 17%. В пяти случаях из шести GPT видит только первую проблему и игнорирует вторую.

Как коллега, который читает письмо до середины и бежит исполнять. Вторая половина? Какая вторая половина?

Это не вопрос «кто лучше». Это конкретная слепая зона конкретной модели. Один и тот же скилл, одна и та же инструкция «если в обращении несколько проблем — создай отдельную задачу на каждую». Claude следует. GPT — нет.

Стабильность: топ стабилен, бюджет — рулетка

Ключевые обращения прогонялись по 20 раз. Вопрос: сколько раз из 20 модель даст одинаковый результат?

Модель	Consistency
Claude	100%
GPT-4.1	100%
Gemini	95%
DeepSeek	87%

Claude и GPT при temperature=0 оказались полностью стабильны — каждый запуск давал тот же результат. Это лучше, чем я ожидал.

DeepSeek в каждом восьмом запуске выдавал другой ответ на тот же вход. Та же задача, тот же скилл, та же модель, те же настройки — а результат другой. Если вы строите продукт на бюджетной модели и рассчитываете на предсказуемость — закладывайте запас.

Главная ошибка — одна у всех

Я классифицировал каждую ошибку: модель не вызвала инструмент (тип A), вызвала не тот (тип B), передала неправильные параметры (тип C), нарушила порядок (тип D).

Тип A — «не вызвал инструмент, ответил текстом» — от 78% до 96% всех ошибок. У всех четырёх моделей.

Модели не путают инструменты. Не передают неправильные параметры. Они просто забывают, что инструменты существуют, и пишут ответ как обычный чатбот. Это подтверждает наблюдение из бенчмарка tool-calling: когда задача требует суждения, модели часто не справляются с вызовом инструментов, и размер модели — слабый предиктор точности.

Вы дали работнику набор инструментов, подробную инструкцию — а он просто ответил вам устно, не прикоснувшись ни к одному инструменту.

Один скилл, четыре модели — что может пойти не так - 2

Итоговая картина

Метрика	Claude 4.6	GPT-4.1	Gemini 2.5	DeepSeek V3
Success rate	78%	78%	73%	62%
L1 (простые)	100%	100%	91%	82%
L2 (неочевидные)	100%	100%	97%	58%
L3 (цепочки)	78%	78%	70%	82%*
L4 (сдержанность)	100%	100%	100%	100%
Multi-issue	100%	17%	100%	67%
Consistency	100%	100%	95%	87%
Цена input/1M	~$3	~$2	~$2.50	~$0.55

DeepSeek на L3 (цепочки) показал 82% против 78% у Claude — контринтуитивный результат, который может быть связан с малым количеством L3-кейсов в выборке. Относитесь к нему с осторожностью.

Один скилл, четыре модели — что может пойти не так - 3

Один скилл, четыре модели — что может пойти не так - 4

Скилл работает. Но не как программа. И это нормально.

Скилл — выравниватель, не гарантия

Главный практический вывод: подробный скилл драматически улучшает модели послабее. DeepSeek с 0% (простой промпт) до 62% (скилл). Gemini с 70% до 73%. Для сильных моделей скилл тоже помогает, но иначе — Claude поднялся с 65% (простой промпт) до 78%.

Экономическая логика: зачем платить $3 за Claude на простую классификацию, если DeepSeek за $0.55 со скиллом справляется в 82% случаев на L1? А на сложных задачах — переключайте на Claude.

У каждой модели — свои грабли

GPT-4.1 не видит множественные проблемы в одном обращении. DeepSeek не понимает нюансы классификации и паникует от ключевых слов. Gemini иногда теряет стабильность. Claude — ровный, но дорогой.

Нельзя написать один скилл и забыть. Нужно тестировать на целевой модели. Как минимум — прогнать десять задач пять раз. Это займёт полчаса и сэкономит недели отладки в продакшене.

Что с этим делать

Если вы пишете скиллы: указывайте, на каких моделях тестировали. Публикуйте success rate — хотя бы приблизительный. Негативные инструкции («когда НЕ делать») работают лучше всего — не скупитесь на них.

Если вы строите продукт: тестируйте скилл на вашей конкретной модели, не верьте чужим результатам. Для простых задач — модель послабее + хороший скилл = рабочее решение. Для сложных — скилл не заменяет качество модели. И закладывайте fallback: модель может «забыть» про инструменты в 20-25% случаев.

Если вы делаете платформу: индустрии нужен стандарт skill-карточек — модель, версия, success rate, типы ошибок. Как у npm-пакетов есть engines и peerDependencies. Anthropic уже движется в эту сторону — их eval-фреймворк для скиллов позволяет запускать бенчмарки и A/B-сравнения версий. Но это пока инструмент, а не стандарт.

Проверяйте сами

Я не говорю, что скиллы бесполезны — данные показали обратное. Подробный скилл поднял DeepSeek с нуля до 62%.

Я говорю: тестируйте. Измеряйте. Не верьте на слово — ни авторам скиллов, ни мне. Код, скилл, тестовые обращения, сырые результаты — всё в репозитории. Прогоните на своих моделях и своих задачах. Расскажите, что получилось.

Если ваш скилл стабильно работает на трёх моделях с 90% success rate — это отличный скилл. Просто напишите об этом в README.

Хороший скилл превращает модель послабее в рабочую. Но не в отличную. И узнать разницу можно только одним способом — проверить.

Эксперимент проведён в апреле 2026 года. Модели: Claude Sonnet 4.6, GPT-4.1, Gemini 2.5 Pro, DeepSeek V3 (deepseek-chat-v3-0324). Все запросы через OpenRouter API, temperature=0. Полная методология, параметры запросов и данные — в репозитории.

Автор: alex2061

Источник

Опубликовано в AI skills, ai-агенты, claude, deepseek, gemini, gpt, llm, tool calling, бенчмарк, кроссмодельное тестирование