LLM бенчмарк «Испытание Дали»
Обложка нарисована в ChatGPT Image-2 Помните анекдот? — Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.
Обложка нарисована в ChatGPT Image-2 Помните анекдот? — Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.
В декабре я рассказал на Хабре, как GPTunneL вырос от прототипа до 1,5 млн пользователей. С тех пор нас стало 2 млн. Подумал – пора рассказать, что мы делаем сейчас и куда идём. Хабр для этого хорошее место. Если коротко: строим и обучаем собственную модель GROM, развиваем GraphRAG, Creative Lab, vibe-coding, работаем над оркестрацией 100+ моделей […]
Доступ к западным большим языковым моделям (далее — БЯМ) закрывается снаружи и, судя по всему, скоро начнёт закрываться изнутри. Что останется бизнесу и какую цену нам придётся за это платить? Изоляция на практике
Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?
14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.