Архив рубрики ‘LLM-as-judge’

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. […]

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я её четыре раза перечитал и собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил ответ, что я в буквальном смысле платил юзерам за то, чтобы они НЕ подписывались. Что сломалось Дизайн: юзер дочитывает книгу → получает бонусные credits […]