Архив рубрики ‘llm’

Не пропустить негатив: как мы построили мультиагентную систему мониторинга упоминаний

Привет, Хабр! На связи команда маркетинга продукта Agent Platform. Как и многие продуктовые команды, мы пристально следим за тем, что говорят о нас пользователи. Эта статья — о том, как мы решили задачу, которая знакома, наверное, каждому продуктовому маркетологу или DevRel-у: не пропустить негатив о продукте в разных источниках, где его упомянули. Спойлер: собирать агента […]

Зелёные галочки лгут: почему AI пишет тесты, которые ничего не тестируют, и как это починить

Тесты зелёные, покрытие растёт, а багов меньше не становится. На QA-митапе инженер из крупной продуктовой компании показал механику: AI-агенты подгоняют моки, меняют ассерты, генерируют результаты, которые ничего не проверяют. Стек у команды — near-SOTA. Модель свежая. Агент — один из лидеров open-source. Значит, дело не в инструментах. А в чём именно — разбираю ниже: от […]

Пробуем на себе: LLM в разработке

Рассказываю о реальном опыте использования AI в разработке и о тех практических результатах, которых удалось добиться за один год регулярной работы с современными языковыми моделями. Спойлер: получилось многое, но не все.

Skaro 2.0: не ещё один AI-инструмент для кода, а среда совместной работы над проектом

Ранее я уже рассказывал о Skaro (тут). С тех пор проект заметно изменился: вторая версия получилась не косметическим обновлением, а довольно глубокой переработкой самой модели работы. Поэтому сейчас хочется не просто показать список новых функций, а нормально объяснить, что такое Skaro, для чего он нужен, почему я вообще продолжаю его развивать и куда хочу вести […]

Полтора года без ручного кода: почему инструкции ИИ‑агенту не заменяют инженерную дисциплину

Это первая статья из шести. Серия о том, как выстроить инженерный процесс для разработки, где весь код пишут ИИ‑агенты, а человек управляет, проверяет и отвечает за результат. Где этот процесс держит, где рвётся, и какие вопросы у меня пока без ответа.

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А […]

Как мы в CodeScoring модель для поиска секретов готовили

TLDR; За счёт новой модели удалось улучшить качество распознавания истинных секретов с 0.70 до 0.90 PR AUC.

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять. Всё началось с боли Делал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали. […]

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для […]

Как я хотел одного AI-агента, а получил целую деревню

Всё началось с простого желания: чтобы AI-агент мог потихоньку развивать мои проекты, пока я занят другими делами. Поставил задачу, ушёл, вернулся к готовому результату. За неделю из этого желания выросла мультиагентная система с шиной сообщений, мониторингом, делегированием задач и собственной веб-админкой. Система, которая в значительной мере построила сама себя. Под катом: путь от первого запуска […]