Архив рубрики ‘бенчмарки’

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

16 апреля Anthropic выкатила Claude Opus 4.7. На self-reported бенчмарках — 12 побед из 14. SWE-bench Verified +6.8, MCP-Atlas +14.6, SWE-bench Pro +10.9. Цена та же, 25 за миллион токенов. Через 24 часа

LLM бенчмарк «Испытание Дали»

Обложка нарисована в ChatGPT Image-2 Помните анекдот? — Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно. 

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Привет, Хабр! Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Получилось собрать практиков, которые каждый день решают эту дилемму: Андрея Кувалдина («Транссеть»), Сергея Олькова («Диасофт»), Максима Семёнкина (CodeInside), Артема Панькова (Secret Agents), Владислава Кудинова (Veai), Константина Глазкова […]

AI-агенты в реальном мире: почему они не работают и как это исправить

Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение. У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.  Статья на основе презентации