Архив рубрики ‘llm’

LLM для игры в ДнД: эволюция подхода

AI предлагает, мержу я: почему я не даю агенту последний ход

Есть неприятная иллюзия: если модель стала сильнее, ей можно дать больше свободы. В кодинге это быстро выходит боком. Агент пишет много, уверенно, иногда даже красиво. Потом ты открываешь diff и понимаешь, что вместе с полезным кодом туда попало… ну, назовём это решениями, которые ты сам никогда бы не принял. У меня после нескольких таких заходов […]

ИИ на службе у ФНС: как КНП идет к эпохе «автоактов»

На днях встретился с бывшими коллегами-налоговиками, которые, как и я, недавно ушли со службы. Обсудили то, что сейчас происходит в ФНС, региональных инспекциях, как в целом себя ощущает бизнес. И по нашему мнению пока на ПМЭФ заявляют, что с налоговой нагрузкой все в порядке и палку никто не перегнул, на самом деле все гораздо менее […]

Сайты под управлением ИИ: как это работает под капотом. Часть 2 из 3

Часть 1 — Сайты под управлением ИИ: что это на самом деле и сколько стоит. Часть 2 — Вы сейчас здесь Часть 3 — На подходе Это вторая часть из трёх. В первой мы разбирались с концепцией: что такое сайт под управлением ИИ на самом деле, чем он не является, сколько стоит, есть ли инференс в рантайме (спойлер: для посетителя — нет). Если читали — отлично. Если нет — здесь будет понятно и без неё, потому […]

30 кастдевов сэкономили мне месяцы разработки… (и похоронили первоначальную идею)

Сладкие оковы вайб- к̶о̶д̶и̶н̶г̶а̶ инжиниринга [часть 2]

Это вторая статья об использовании LLM в проекте разработки компилятора языка программирования как транспилятора в код на C++. Я продолжаю историю и хочу рассказать о своих наблюдениях и впечатлениях от попыток применять автономных агентов в большом и сложном проекте. А также о навязчивой рекламе и встроенных «закладках» в коде некоторых инструментов, которые, похоже, целенаправленно ухудшают […]

Cloudflare: Оркестрация AI-ревью кода в промышленных масштабах

Code review (ревью кода) — отличный механизм для отлова багов и обмена знаниями, но вместе с тем это почти гарантированный способ создать «бутылочное горлышко» для всей команды разработчиков. Merge Request (MR) сутками висит в очереди, ревьюер рано или поздно отвлекается от своих задач, чтобы вникнуть в diff, оставляет пару мелких придирок к названиям переменных, автор […]

Claude Code убрал из моей работы рутину и почему я этому не долго радовался

Долгое время вижу одно и то же в новостях и обзорах: ИИ уберет рутину, снимет трение, даст крылья и вообще панацея от всех болячек. Я поставил Claude Code — и да, трение исчезло. Рутина схлопнулась. Идею теперь можно проверить за вечер, а не за месяц. А дальше выяснилось, что трение это для меня было важно […]

Что произойдёт с продуктом и техдолгом, если разработку отдать автономному AI: ставлю эксперимент

Заявка от незнакомца → AI пишет код → правка в общем билде, который видят все Коротко о себе

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. […]