LLM-as-judge

Архив рубрики ‘LLM-as-judge’

13
Июн
2026

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. […]

Опубликовано в computer vision, gemini, llm, LLM-as-judge, rag, бенчмарк, нутриенты, оценка качества моделей, подсчёт калорий, распознавание еды

26
Апр
2026

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я её четыре раза перечитал и собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил ответ, что я в буквальном смысле платил юзерам за то, чтобы они НЕ подписывались. Что сломалось Дизайн: юзер дочитывает книгу → получает бонусные credits […]

Опубликовано в ai-агенты, AI-ревью, claude code, cross-model critique, gemini cli, LLM-as-judge

Архив рубрики ‘LLM-as-judge’

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Рубрики

Случайные статьи

Архивы