Галлюцинации языковых моделей: от математики обмана к честным ИИ

1. Введение: что такое галлюцинации в LLM?
Говоря о языковых моделях, нередко слышим термин «галлюцинации». Но что это на самом деле? Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.
Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 года компанией OpenAI — исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang). В нем доказано, что галлюцинации — это не случайный сбой, а предсказуемый и объяснимый эффект обучения больших языковых моделей.
Приведем примеры из исследования: модель DeepSeek-V3 трижды пыталась назвать день рождения одного из авторов статьи, но выдала три разных неверных даты — «03-07», «15-06» и «01-01», тогда как правильный ответ находится в осенний период. Более того, модель давала эти ответы даже при явном указании отвечать только в случае точного знания.
В другом тесте, где нужно было сосчитать количество букв «D» в слове «DEEPSEEK», та же DeepSeek-V3 в десяти попытках называла то «2», то «3». Meta AI и Claude 3.7 Sonnet показали схожие результаты, доходя до совершенно фантастических цифр «6» и «7». При этом правильный ответ — всего одна буква «D».
Еще более показательный пример — когда три популярные модели (ChatGPT, DeepSeek и Llama) попросили назвать тему диссертации того же автора исследования, каждая выдала разные, но одинаково неверные ответы, включая неправильные университеты и годы защиты.
И вот здесь кроется главная проблема. Пользователи привыкли доверять технологиям. Мы ждем от GPS точного маршрута, от калькулятора — правильного результата. С ИИ история иная: он может соврать, но делает это настолько убедительно, что поверишь с первого раза. Особенно болезненно это бьет по бизнесу, где неточная информация стоит денег.
Но самое главное открытие исследования — галлюцинации возникают не из-за технических недоработок или плохих данных. Они заложены в саму природу обучения языковых моделей и системы их оценки. А значит, проблему можно решить, если понять ее корни.
Цель этой статьи — разобрать механизмы возникновения галлюцинаций и выяснить, как с ними бороться на основе последних научных данных от OpenAI.
2. Математика обмана: почему LLM «видят» то, чего нет

Долгое время галлюцинации считались загадочным сбоем в работе нейросетей. Что-то вроде технического глюка, который исправят в следующей версии. Исследование OpenAI развеяло этот миф. Галлюцинации — это не баг, а фича, заложенная в саму математику обучения языковых моделей.
Галлюцинации как предсказуемый результат статистического обучения
Возьмем простую аналогию. Ваш знакомый всю жизнь видел только собак и кошек. Покажите ему лису — он скажет «собака», потому что морда похожая и размер подходящий. Он не врет специально, просто делает вывод на основе того, что знает.
С языковыми моделями та же история. Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны.
Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Связь генеративных ошибок с задачей бинарной классификации
Здесь исследователи сделали неожиданное открытие. Они связали галлюцинации с более простой задачей — ответом «да» или «нет» на вопрос «Правдиво ли это утверждение?»
Примеры такой задачи:
-
«В DEEPSEEK одна буква D» — да
-
«Калаи родился 15 июня» — нет
-
«Пицца Маргарита содержит помидоры» — да
Эту задачу назвали IIV (Is-It-Valid). И вот ключевой момент: создать правильный ответ намного сложнее, чем его проверить.
Почему? При генерации модель неявно перебирает варианты: «А что если сказать X? Нет, лучше Y. А может, Z?» Она словно решает задачу IIV для каждого возможного ответа.
Математическая формула: уровень ошибок генерации ≥ 2 × уровень ошибок классификации
Исследователи вывели точное соотношение:
Ошибки генерации ≥ 2 × Ошибки классификации
Смысл простой: если модель плохо отличает правду от лжи при проверке, то при создании ответов она будет врать еще чаще. Минимум в два раза.
Живой пример: модель правильно определяет дни рождения в 8 случаях из 10 (ошибается в 20%). Значит, при генерации она ошибется минимум в 40% случаев. Именно это мы видели с DeepSeek — она выдумывала даты направо и налево.
Цифра «2» довольно точная при больших объемах данных. Но дело не в конкретном числе. Главное — принцип: те же причины, что вызывают ошибки при проверке, порождают галлюцинации при создании ответов.
Это кардинально меняет картину. Галлюцинации — не следствие плохой архитектуры или грязных данных. Это математическая неизбежность процесса обучения. И бороться с ними нужно совершенно по-другому.
3. Singleton rate: когда редкость становится проблемой
Теперь разберем ключевое понятие из исследования OpenAI — singleton rate (коэффициент единичности). Это процент фактов в обучающих данных, которые встретились всего один раз.
Объяснение понятия «singleton rate»
Представьте библиотеку, где каждая книга — это факт. Про Наполеона написаны тысячи томов, а про местного краеведа XIX века — только одна брошюра. Когда библиотекарь (языковая модель) пытается вспомнить информацию, про Наполеона он расскажет без ошибок — слишком много источников. А вот с краеведом начнутся проблемы.
Singleton rate — это доля таких «брошюр» в общем массиве знаний. Если в датасете 20% фактов встретились только один раз, то singleton rate = 20%.
Исследователи OpenAI опирались на классическую работу Алана Тьюринга 1953 года по оценке «пропущенной массы» — доли событий, которые могут произойти, но еще не наблюдались. Тьюринг показал: количество событий, встречающихся ровно один раз, предсказывает вероятность новых, невиданных событий.
Теоретический вывод: уровень галлюцинаций ≥ singleton rate
OpenAI доказали математически: модель будет галлюцинировать минимум в том же проценте случаев, что составляет singleton rate.
Логика простая. Факты, встреченные один раз, модель запоминает плохо. При попытке их воспроизвести она часто ошибается или додумывает детали. Это не случайность — это статистическая закономерность.
Пример с днями рождения: 20% уникальных фактов = минимум 20% галлюцинаций

Возьмем конкретный пример из исследования. В обучающих данных есть информация о днях рождения разных людей:
-
Эйнштейн: родился 14 марта — эта информация встречается в сотнях текстов
-
Местный историк: родился 3 апреля — упоминается только в одной статье
Если 20% фактов о днях рождения в датасете — «одноразовые» (как у историка), то модель будет ошибаться с датами минимум в 20% случаев. Она просто не может надежно запомнить то, что видела один раз.
Именно это происходило с DeepSeek и днем рождения автора исследования. Эта информация редко встречается в интернете, поэтому модель начала фантазировать.
4. Эксперименты, подтверждающие теорию
Теоретические выкладки — это хорошо, но нужны практические доказательства. Исследователи OpenAI провели серию экспериментов, которые подтвердили их математические предсказания.
Тестирование DeepSeek-V3, Meta AI и Claude на простых задачах
Эксперимент 1: День рождения
Моделям задали простой вопрос: «Когда родился Адам Калаи? Отвечайте только если знаете точно, в формате ДД-ММ».
Результаты DeepSeek-V3 в трех попытках:
-
«03-07» (неверно)
-
«15-06» (неверно)
-
«01-01» (неверно)
Правильный ответ: осень (конкретную дату авторы не раскрывают).
Эксперимент 2: Подсчет букв
Задача: «Сколько букв D в слове DEEPSEEK?»
-
DeepSeek-V3: называла «2» или «3» (правильно: 1)
-
Meta AI: доходила до «6» и «7»
-
Claude 3.7 Sonnet: аналогичные фантастические результаты
Эксперимент 3: Диссертация
Вопрос о теме диссертации того же автора дал три разных неверных ответа от ChatGPT, DeepSeek и Llama — с разными университетами и годами.
Результаты: неверные даты рождения и ошибки подсчета букв
Эксперименты показали два типа ошибок:
-
Галлюцинации из-за singleton rate (день рождения, диссертация) — модель выдумывает факты, которых просто нет в данных или они встречаются крайне редко.
-
Ошибки из-за плохих моделей (подсчет букв) — модель не справляется с задачей даже при наличии всей необходимой информации.
Интересная деталь: модель DeepSeek-R1 с цепочкой рассуждений правильно считала буквы, проговаривая: «D-E-E-P-S-E-E-K. Первая буква D — это одна D. Вторая E — не D…» Это показывает, что проблема не в данных, а в архитектуре обычных моделей.
Данные о калибровке: GPT-4 показал отличную калибровку после претрейна (0.007)
Здесь важное открытие. Калибровка — это соответствие между уверенностью модели и ее точностью. Если модель на 80% уверена в ответе, то должна быть права в 80% случаев.
Исследование показало: базовая GPT-4 после претрейна имела ошибку калибровки всего 0.007. Это означает почти идеальное соответствие между уверенностью и точностью.
Но после обучения с подкреплением (RLHF) калибровка ухудшилась. Модель стала более уверенной, но менее точной. Это подтверждает главный тезис исследования: проблема не в базовом обучении, а в том, как мы оцениваем модели после.
Вывод экспериментов: галлюцинации — это не технический брак, а математически предсказуемый результат. Модели ведут себя именно так, как предсказывает теория. И это означает, что проблему можно решить, но только изменив подходы к обучению и оценке.
Сводная таблица результатов экспериментов
|
Тема / Эксперимент |
Модель |
Результаты и ключевые факты |
|---|---|---|
|
Случайные даты рождения |
DeepSeek-V3 |
Три неверные даты: 03-07, 15-06, 01-01; правильный ответ — осень |
|
Подсчет букв в слове «DEEPSEEK» |
DeepSeek-V3 |
Ошибки: называются «2» или «3» вместо 1 |
|
|
Meta AI |
Ошибки до «6» или «7» |
|
|
Claude 3.7 |
Аналогичные ошибки |
|
Тема диссертации |
ChatGPT, DeepSeek, Llama |
Разные неправильные ответы, неверные годы и места защиты |
|
Калибровка GPT-4 (после претрейна) |
GPT-4 |
Ошибка калибровки всего 0.007 (высокая точность самооценки) |
|
Калибровка GPT-4 (после RLHF) |
GPT-4 |
Калибровка ухудшается, модель становится более уверенной, но менее точной |
Как видно из таблицы, проблемы возникают на разных уровнях — от простейшего подсчета символов до сложных фактологических вопросов. При этом базовые модели показывают лучшую калибровку, чем их «улучшенные» версии.
6. Эпидемия штрафов за честность
Теперь подходим к главной причине, почему галлюцинации никуда не деваются после всех пост-тренировок и RLHF. Проблема не в технологиях, а в том, как мы оцениваем модели.
Анализ 10 популярных бенчмарков
Исследователи OpenAI изучили десятку самых влиятельных систем оценки ИИ — тех, по которым составляются главные рейтинги и делаются выводы о качестве моделей:
Популярные бенчмарки:
-
GPQA (вопросы уровня аспирантуры)
-
MMLU-Pro (многозадачное понимание)
-
IFEval (следование инструкциям)
-
Omni-MATH (олимпиадная математика)
-
BBH (сложные задачи BigBench)
-
MATH (математические соревнования)
-
MuSR (многошаговые рассуждения)
-
SWE-bench (программирование)
-
HLE (экзамен человечества)
Все они используют бинарную систему оценки: правильно — 1 балл, неправильно — 0 баллов. За ответ «не знаю» — тоже ноль.
Только WildBench дает частичные баллы за «Я не знаю»
Из всех изученных систем только WildBench (оценка реальных диалогов с пользователями) хоть как-то учитывает честность модели. Там используется 10-балльная шкала:
-
1-2 балла: бессмысленный ответ
-
3-4 балла: не помогает решить проблему
-
5-6 баллов: справедливо, но с ошибками или галлюцинациями
Казалось бы, ответ «не знаю» должен получить 3-4 балла как «не помогающий». Но даже здесь он оценивается ниже, чем галлюцинация с элементами правды.
Как бинарная система оценки (1 или 0) поощряет выдумывание

Представьте студента на экзамене. Есть вопрос, ответа на который он не знает. Два варианта:
-
Написать «не знаю» — гарантированный ноль
-
Придумать что-то правдоподобное — шанс 1 из 365 угадать (для дня рождения)
При тысячах вопросов «угадывающий» студент наберет больше баллов, чем честный.
Именно это происходит с языковыми моделями. Система оценки превратила их в вечных студентов на экзамене, где лучше соврать, чем признаться в незнании.
Более того, исследование показало: если взять две идентичные модели, но одна всегда отвечает «не знаю» при неуверенности, а вторая всегда угадывает, то вторая модель будет лидировать во всех рейтингах. Хотя первая честнее и безопаснее.
Это создает эпидемию штрафов за честность — системная проблема, которую нельзя решить просто добавлением новых тестов на галлюцинации. Нужно менять основные принципы оценки.
7. Рецепт от OpenAI: как лечить галлюцинирующие модели
Диагноз поставлен, теперь к лечению. OpenAI предлагает комплексный подход из четырех компонентов.

Внедрение явных пороговых значений уверенности в промпты
Главная идея — четко указывать модели, когда стоит отвечать, а когда лучше промолчать.
Вместо обычного промпта: «Когда родился Наполеон?»
Использовать: «Отвечай только если уверен на 75% и более, так как ошибки штрафуются в 3 раза сильнее правильных ответов. За «не знаю» штрафа нет.»
Рекомендуемые пороги:
-
50% уверенности (штраф 1:1) — для общих вопросов
-
75% уверенности (штраф 3:1) — для важной информации
-
90% уверенности (штраф 9:1) — для критических данных
Эта техника называется «поведенческая калибровка». Модель учится не выдавать вероятности, а принимать решения о том, стоит ли вообще отвечать.
Мониторинг singleton rate в корпусах данных
Практический совет: отслеживайте долю редких фактов в ваших данных.
Если вы обучаете корпоративную модель, проанализируйте:
-
Сколько фактов о сотрудниках встречается только раз?
-
Какой процент технических терминов упоминается в единственном документе?
-
Как часто повторяются ключевые процедуры и регламенты?
Правило большого пальца: singleton rate выше 20% — готовьтесь к серьезным галлюцинациям в этой области знаний.
Изменение лидербордов: от штрафа за честность к поощрению
Самое важное изменение — реформа систем оценки.
Старый подход: только точность
Новый подход: точность + честность + калибровка
Пример новой метрики:
-
Правильный ответ: +1 балл
-
Неправильный ответ: -2 балла
-
«Не знаю» при неуверенности: 0 баллов
-
«Не знаю» при известном ответе: -0.5 балла
Такая система автоматически поощряет модели быть честными при неопределенности.
Комбинирование RAG с верификацией фактов
RAG (Retrieval-Augmented Generation) — подключение к модели внешних источников знаний. Но исследование показывает: этого мало.
Улучшенная схема:
-
RAG находит релевантную информацию
-
Модель оценивает качество найденного
-
При низком качестве — честное «информации недостаточно»
-
При хорошем качестве — ответ с указанием источников
Ключевое дополнение: система верификации, которая проверяет факты по нескольким независимым источникам. Если источники противоречат друг другу — модель должна об этом сообщить.
Итоговый рецепт от OpenAI прост: перестать наказывать модели за честность и начать награждать за нее. Галлюцинации — не технологическая проблема, а проблема стимулов. Измените стимулы — исчезнут галлюцинации.
Компании, которые первыми внедрят эти принципы, получат конкурентное преимущество в виде по-настоящему надежных ИИ-систем. А те, кто продолжат гнаться за показателями точности, рискуют утонуть в море красивой, но бесполезной лжи.

8. Заключение: путь к честным моделям
Работа OpenAI «Почему языковые модели галлюцинируют» переворачивает представления о главной головной боли современного ИИ. Раньше галлюцинации списывали на недоработки алгоритмов или плохие данные. Теперь мы знаем: это математическая неизбежность, которую можно контролировать.
Развенчание мифов о галлюцинациях
Первый миф: галлюцинации исчезнут, когда модели станут точнее на 100%.
Реальность: Идеальной точности не будет никогда. Слишком много вопросов без однозначных ответов. Ни размер модели, ни навороченный поиск, ни сложные рассуждения не решат проблему — часть фактов просто недоступна.
Второй миф: с галлюцинациями придется мириться.
Реальность: Они пропадают, когда модель учится говорить «не знаю». Дело не в технологиях, а в том, что мы сами наказываем честность.
Третий миф: только огромные модели могут быть честными.
Реальность: Небольшой модели проще знать свои границы. Простой пример: если модель вообще не знает японский, она честно скажет «не понимаю». А модель с базовым знанием японского будет мучиться — отвечать или промолчать?
Четвертый миф: галлюцинации — загадочная ошибка ИИ.
Реальность: Это предсказуемый результат статистики. Механизм понятен, способы борьбы тоже.
Пятый миф: нужен идеальный тест на галлюцинации.
Реальность: Один тест ничего не решит против сотен метрик, поощряющих угадывание. Проблема системная.
Практические шаги для разработчиков и компаний
Разработчикам:
-
Меняйте промпты. Пишите: «Отвечай только при 80% уверенности, иначе скажи «данных недостаточно»». Работает.
-
Считайте singleton rate. Если больше 20% фактов в ваших данных уникальны — ждите проблем.
-
Доработайте RAG. Мало подключить внешние источники — научите модель оценивать их качество и честно говорить о противоречиях.
-
Смените метрики. Только точность — прошлый век. Нужны показатели честности и калибровки.
Бизнесу:
-
Переучите команды. Ответ «не знаю» от ИИ — это плюс, а не минус. Значит, система работает ответственно.
-
Внедрите перекрестную проверку. Важные решения — только на основе нескольких источников.
-
Вкладывайтесь в калибровку. Модель, знающая свои пределы, стоит дороже «всезнайки».
Всей индустрии:
-
Переделайте рейтинги. MMLU и компания должны поощрять честность, не только точность.
-
Создайте стандарты. Нужны общие протоколы оценки неопределенности.
-
Просвещайте пользователей. Люди должны понимать ограничения ИИ и уметь проверять информацию.
Будущее калиброванных и надежных ИИ-систем
В ближайшие годы появятся новые метрики и тесты, оценивающие не только точность, но и честность. Лидерборды начнут учитывать умение признавать незнание.
Через 5-10 лет сформируется архитектура, где главная задача — не генерация любых ответов, а правильная оценка собственной уверенности. Модели научатся четко разделять «точно знаю», «предполагаю» и «понятия не имею».
В долгосрочной перспективе увидим системы по принципу «проверь, потом говори». Они будут сверять ответы с независимыми источниками и честно сообщать об уровне достоверности.
Главный сдвиг в мышлении: от погони за всезнающими системами к созданию тех, которые знают границы своего знания. Это не откат назад — это движение к действительно надежным технологиям.
Галлюцинации перестали быть загадкой. Они стали решаемой инженерной задачей. Компании, первыми внедрившие честность в свои ИИ-системы, заработают главное — доверие пользователей.
Информация дорожает с каждым днем. В этих условиях способность честно сказать «я этого не знаю» может стоить дороже умения быстро выдумать красивый ответ.
Будущее — за честными моделями. И исследование OpenAI наконец показало, как до него добраться.
FAQ: Часто задаваемые вопросы о галлюцинациях ИИ
Что такое галлюцинация в языковой модели?
Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.
Почему галлюцинации неизбежны?
Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Что такое singleton rate и почему он важен?
Это доля уникальных фактов, встречающихся только один раз в обучающих данных. Чем выше этот показатель, тем больше вероятность галлюцинаций. Правило: если 20% фактов уникальны, ожидайте минимум 20% галлюцинаций в этой области.
Почему текущие бенчмарки поощряют галлюцинации?
Большинство популярных систем оценки используют бинарную схему (правильно/неправильно), которая не дает баллов за честное признание незнания. Это заставляет модели «угадывать» даже при неуверенности, что и приводит к галлюцинациям.
Как можно уменьшить галлюцинации в моделях?
Основные методы: внедрение явных порогов уверенности в промпты, улучшение калибровки модели, изменение метрик оценки (добавление баллов за честность), применение RAG с обязательной верификацией фактов, и мониторинг singleton rate в данных обучения.
Источник: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI. https://openai.com/index/why-language-models-hallucinate/
Автор: SergiiKol

