бенчмарки

Архив рубрики ‘бенчмарки’

29
Апр
2026

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

16 апреля Anthropic выкатила Claude Opus 4.7. На self-reported бенчмарках — 12 побед из 14. SWE-bench Verified +6.8, MCP-Atlas +14.6, SWE-bench Pro +10.9. Цена та же, 25 за миллион токенов. Через 24 часа

Опубликовано в ai coding, anthropic, claude, llm, Opus 4.7, sycophancy, бенчмарки, Разработка

27
Апр
2026

LLM бенчмарк «Испытание Дали»

Обложка нарисована в ChatGPT Image-2 Помните анекдот? — Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.

Опубликовано в claude, deepseek v4, gemini, gigachat, gpt-5, llm, prompt-engineering, yandexgpt 5, бенчмарки, Искусственный интеллект

23
Апр
2026

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.

Опубликовано в cicd, deployment frequency, devex, DevOps, DORA, software delivery, бенчмарки, метрики разработки, Управление разработкой

30
Мар
2026

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Опубликовано в gigachat, yandexgpt, бенчмарки, ии, исследование

17
Дек
2025

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Привет, Хабр! Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Получилось собрать практиков, которые каждый день решают эту дилемму: Андрея Кувалдина («Транссеть»), Сергея Олькова («Диасофт»), Максима Семёнкина (CodeInside), Артема Панькова (Secret Agents), Владислава Кудинова (Veai), Константина Глазкова […]

Опубликовано в ai, gpu, llm-модели, архитектура, бенчмарки, будущее программирования, микросервисы, Программирование

29
Апр
2025

AI-агенты в реальном мире: почему они не работают и как это исправить

Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение. У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей. Статья на основе презентации

Опубликовано в claude, gpt, llm, llm-модели, бенчмарки, галлюцинации, инженерия надежности, оценка, парадокс джевонса

Архив рубрики ‘бенчмарки’

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

LLM бенчмарк «Испытание Дали»

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

10% на LLM и 90% на инженерию: как российские компании используют ИИ

AI-агенты в реальном мире: почему они не работают и как это исправить

Рубрики

Случайные статьи

Архивы