Сколько стоит интеллект? Как оптимизировать бюджет AI-проекта в 2025
Контекст
AI может помочь снизить затраты, ускорить процессы или увеличить выручку. Однако, чтобы экономика проекта сходилась, нужно не только уметь качественно оценивать потенциальный эффект, но и уметь контролировать затраты.
Цель статьи — показать, как минимизировать расходы на AI-проект.
Дисклеймер: Рынок GenAI очень динамичен, и цены могут быстро меняться. Цены актуальны на момент написания (середина 2025 года) и могут измениться. Для простоты ограничимся только ценами на LLM.
Подходы к развертыванию AI продукта
Существует два основных способа:
-
Собственное решение — используете open-source модели и запускаете их на собственной или арендованной инфраструктуре.
-
Модель как сервис (Model-as-Service) — когда вы подключаетесь к готовой модели через API и платите за объем использования.
Вариант 1: Собственное решение
Стоимость, в основном, складывается из стоимости инфраструктуры и ФОТ.
Собственная инфраструктура:
-
GPU-сервер для инференса моделей средних размеров: ~1-1.2 млн руб.
-
Высокие начальные затраты, но с учетом амортизации, если взять срок службы в 5 лет, то стоимость сервера — 16 667 — 20 000 руб./мес.
Альтернатива — облако:
-
Yandex Cloud: ~ 430 тыс. руб./мес.
-
Google Cloud (g2-standard-24): ~ 131 тыс. руб./мес. при курсе 90 руб. за доллар.
-
Sber Cloud: ~345 тыс. руб./мес.
Цены без учета трафика, который тоже тарифицируется, так что это минимальная стоимость облачной инфраструктуры.
Команда:
-
AI Engineer (Senior): 520 000 руб
-
0.5 Admin (Senior): 208 000 руб.
Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.
Общая стоимость = ФОТ + инфраструктура:
-
Собственная инфра: ~ 744 тыс. руб./мес.
-
Google: ~ 859 тыс. руб./мес.
-
Yandex: ~ 1.13 млн руб./мес.
-
Sber: ~ 1.07 млн руб./мес.
Способы оптимизации стоимости:
-
Уменьшение моделей, а следовательно, и требований к инфраструктуре. Это делается либо через подбор более легкой модели, либо уменьшения выбранной (квантизация, обрезка модели)
-
Для облака — FinOps оптимизации, долгосрочные контракты и скидки от провайдера
Когда подходит своя инфраструктура
-
Уже есть своя IT-команда и инфраструктура
-
Важно хранить данные внутри контура, есть персональные или чувствительные данные
-
Планируется долгосрочная эксплуатация
-
Подходит на объеме, одного сервера мало для обеспечения стабильности и отказоусточивости
Когда подходит облако
-
Нет собственной большой IT-команды или нет ресурсов обеспечить высокие SLA
-
Нужно гибко и быстро масштабировать сервис в зависимости от нагрузки
-
Защиту данных тоже можно обеспечить
Вариант 2: Модель как сервис (API)
Цена зависит от количества запросов, выбранной модели, количества токенов (слов, частей слов) в запросе и ответе.
Ниже для каждого провайдера приведены диапазоны цен актуальных моделей от дешевой к дорогой. Для западных моделей цены переведены по курсу 90 руб. Для простоты сравнения все цены приведены к единым размерам — 1000 входящих + 1000 исходящих токенов.
Модель |
Компания |
Вход 1000 токенов, руб |
Выход 1000 токенов, руб |
Запрос 1000+1000, руб |
GPT-4.1 nano |
0,009 |
0,036 |
0,045 |
|
o3 |
0,18 |
0,72 |
0,90 |
|
Haiku 3.5 |
0,072 |
0,36 |
0,432 |
|
Opus 4 |
1,35 |
6,75 |
8,10 |
|
Gemini 2.5 Flash |
0,027 |
0,225 |
0,252 |
|
Gemini 2.5 Pro |
0,225 |
1,35 |
1,575 |
|
GigaChat Lite |
0,2 |
0,2 |
0,4 |
|
GigaChat Max |
1,95 |
1,95 |
3,9 |
|
YandexGPT Lite |
0,2 |
0,2 |
0,4 |
|
YandexGPT Pro |
1,2 |
1,2 |
2,4 |
Давайте зафиксируем количество токенов на запрос и посчитаем сколько будет стоить API в месяц в зависимости от количества запросов в день. Сравним полученный результат со стоимостью собственного сервера.


Таким образом, цена на API сильно варьируется:
-
При увеличении количества запросов цена растет линейно
-
При увеличении количества входных токенов, скажем в 10 раз, цена вырастет в 2.5-3 раза на запрос.
-
Если увеличить выход, также в 10 раз, цена вырастет в примерно 8.2 раза на запрос.
-
Цена моделей также может отличаться в 6 — 20 раз в рамках одной компании, а также сильно варьироваться между провайдерами моделей.
Команда:
Так как модель уже сделана, нужно просто интегрировать API и написать промпт, то можно существенно сэкономить на команде.
-
Backend разработчик (0.2 ставки): 93 600 руб./мес.
Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.
Общая стоимость = ФОТ + API:
При объемах в 2000 токенов на запрос и 5000 запросов в день — использование модели по API дешевле собственного сервера, даже при использовании топовых моделей.
-
Gemini 2.5 Pro: 236 250 руб./мес + 93 600 = 329 850 руб./мес.
-
YandexGPT Pro: 360 000 + 93 600 = 453 600 руб./мес.
-
GigaChat Max: 585 000 + 93 600 = 678 600 руб./мес
Однако при росте входного контекста, запросов или выхода моделей — цена быстро переходит порог.
Способы оптимизации стоимости
-
Подбор более дешевых моделей
-
Инженерия промптов — писать коротко
-
Кэширование контекста и идентичных запросов
-
Асинхронная/пакетная обработка — дешевле
-
Ограничение выходной части, где это возможно, генерация выходной последовательности — сильно дороже.
-
Также при наличии в команде AI/ML инженера можно дообучить модель под задачу — снижает количество токенов на входе, а также использовать алгоритмы сжатия промптов.
Когда подходит
-
Дешевле при маленьких объемах — количество запросов и токенов
-
Нужно быстро протестировать гипотезу (MVP)
-
У компании нет своей AI-команды
-
Важна скорость вывода на рынок
Фреймворк управления затратами
Подобьем резюме, как принимать решение и управлять костами:
-
Нужна быстрая проверка гипотез? -> берём API и оцениваем ценность идеи
-
С самого начала следите за метриками: токены, запросы, рубли.
-
Оптимизируйте API: батчевая обработка, замена моделей, кэш, сокращение токенов и т.д.
-
Отслеживайте границу масштаба: OPEX API приближается к стоимости кластера? — пора считать варианты on-prem или облако.
-
Переход к собственному решению: помните, что затраты не исчезают, а перераспределяются: вы больше не платите за модели и токены, но нужно больше вложений в людей и инфраструктуру. Переход требует дополнительных инвестиций, изменения процессов и новых компетенций. Однако при длительной эксплуатации и крупном объёме окупится.
Автор: pvp007