Архив рубрики ‘бенчмарк’

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А […]

Tinder VS LLM

Как мы придумали бенчмарк для LLM в дейтинге Привет, я — дата-сайентист, и в свободное время моими двумя главными хобби являются дейтинг и ведение блога про ML. Казалось бы, что общего у поиска идеального мэтча в Tinder