Галлюцинации языковых моделей: от математики обмана к честным ИИ

09
Сен
2025

Галлюцинации языковых моделей: от математики обмана к честным ИИ

1. Введение: что такое галлюцинации в LLM?

Говоря о языковых моделях, нередко слышим термин «галлюцинации». Но что это на самом деле? Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 года компанией OpenAI — исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang). В нем доказано, что галлюцинации — это не случайный сбой, а предсказуемый и объяснимый эффект обучения больших языковых моделей.

Приведем примеры из исследования: модель DeepSeek-V3 трижды пыталась назвать день рождения одного из авторов статьи, но выдала три разных неверных даты — «03-07», «15-06» и «01-01», тогда как правильный ответ находится в осенний период. Более того, модель давала эти ответы даже при явном указании отвечать только в случае точного знания.

В другом тесте, где нужно было сосчитать количество букв «D» в слове «DEEPSEEK», та же DeepSeek-V3 в десяти попытках называла то «2», то «3». Meta AI и Claude 3.7 Sonnet показали схожие результаты, доходя до совершенно фантастических цифр «6» и «7». При этом правильный ответ — всего одна буква «D».

Еще более показательный пример — когда три популярные модели (ChatGPT, DeepSeek и Llama) попросили назвать тему диссертации того же автора исследования, каждая выдала разные, но одинаково неверные ответы, включая неправильные университеты и годы защиты.

И вот здесь кроется главная проблема. Пользователи привыкли доверять технологиям. Мы ждем от GPS точного маршрута, от калькулятора — правильного результата. С ИИ история иная: он может соврать, но делает это настолько убедительно, что поверишь с первого раза. Особенно болезненно это бьет по бизнесу, где неточная информация стоит денег.

Но самое главное открытие исследования — галлюцинации возникают не из-за технических недоработок или плохих данных. Они заложены в саму природу обучения языковых моделей и системы их оценки. А значит, проблему можно решить, если понять ее корни.

Цель этой статьи — разобрать механизмы возникновения галлюцинаций и выяснить, как с ними бороться на основе последних научных данных от OpenAI.

2. Математика обмана: почему LLM «видят» то, чего нет

Галлюцинации языковых моделей: от математики обмана к честным ИИ - 2

Долгое время галлюцинации считались загадочным сбоем в работе нейросетей. Что-то вроде технического глюка, который исправят в следующей версии. Исследование OpenAI развеяло этот миф. Галлюцинации — это не баг, а фича, заложенная в саму математику обучения языковых моделей.

Галлюцинации как предсказуемый результат статистического обучения

Возьмем простую аналогию. Ваш знакомый всю жизнь видел только собак и кошек. Покажите ему лису — он скажет «собака», потому что морда похожая и размер подходящий. Он не врет специально, просто делает вывод на основе того, что знает.

С языковыми моделями та же история. Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны.

Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Связь генеративных ошибок с задачей бинарной классификации

Здесь исследователи сделали неожиданное открытие. Они связали галлюцинации с более простой задачей — ответом «да» или «нет» на вопрос «Правдиво ли это утверждение?»

Примеры такой задачи:

«В DEEPSEEK одна буква D» — да
«Калаи родился 15 июня» — нет
«Пицца Маргарита содержит помидоры» — да

Эту задачу назвали IIV (Is-It-Valid). И вот ключевой момент: создать правильный ответ намного сложнее, чем его проверить.

Почему? При генерации модель неявно перебирает варианты: «А что если сказать X? Нет, лучше Y. А может, Z?» Она словно решает задачу IIV для каждого возможного ответа.

Математическая формула: уровень ошибок генерации ≥ 2 × уровень ошибок классификации

Исследователи вывели точное соотношение:

Ошибки генерации ≥ 2 × Ошибки классификации

Смысл простой: если модель плохо отличает правду от лжи при проверке, то при создании ответов она будет врать еще чаще. Минимум в два раза.

Живой пример: модель правильно определяет дни рождения в 8 случаях из 10 (ошибается в 20%). Значит, при генерации она ошибется минимум в 40% случаев. Именно это мы видели с DeepSeek — она выдумывала даты направо и налево.

Цифра «2» довольно точная при больших объемах данных. Но дело не в конкретном числе. Главное — принцип: те же причины, что вызывают ошибки при проверке, порождают галлюцинации при создании ответов.

Это кардинально меняет картину. Галлюцинации — не следствие плохой архитектуры или грязных данных. Это математическая неизбежность процесса обучения. И бороться с ними нужно совершенно по-другому.

3. Singleton rate: когда редкость становится проблемой

Теперь разберем ключевое понятие из исследования OpenAI — singleton rate (коэффициент единичности). Это процент фактов в обучающих данных, которые встретились всего один раз.

Объяснение понятия «singleton rate»

Представьте библиотеку, где каждая книга — это факт. Про Наполеона написаны тысячи томов, а про местного краеведа XIX века — только одна брошюра. Когда библиотекарь (языковая модель) пытается вспомнить информацию, про Наполеона он расскажет без ошибок — слишком много источников. А вот с краеведом начнутся проблемы.

Singleton rate — это доля таких «брошюр» в общем массиве знаний. Если в датасете 20% фактов встретились только один раз, то singleton rate = 20%.

Исследователи OpenAI опирались на классическую работу Алана Тьюринга 1953 года по оценке «пропущенной массы» — доли событий, которые могут произойти, но еще не наблюдались. Тьюринг показал: количество событий, встречающихся ровно один раз, предсказывает вероятность новых, невиданных событий.

Теоретический вывод: уровень галлюцинаций ≥ singleton rate

OpenAI доказали математически: модель будет галлюцинировать минимум в том же проценте случаев, что составляет singleton rate.

Логика простая. Факты, встреченные один раз, модель запоминает плохо. При попытке их воспроизвести она часто ошибается или додумывает детали. Это не случайность — это статистическая закономерность.

Пример с днями рождения: 20% уникальных фактов = минимум 20% галлюцинаций

Галлюцинации языковых моделей: от математики обмана к честным ИИ - 3

Возьмем конкретный пример из исследования. В обучающих данных есть информация о днях рождения разных людей:

Эйнштейн: родился 14 марта — эта информация встречается в сотнях текстов
Местный историк: родился 3 апреля — упоминается только в одной статье

Если 20% фактов о днях рождения в датасете — «одноразовые» (как у историка), то модель будет ошибаться с датами минимум в 20% случаев. Она просто не может надежно запомнить то, что видела один раз.

Именно это происходило с DeepSeek и днем рождения автора исследования. Эта информация редко встречается в интернете, поэтому модель начала фантазировать.

4. Эксперименты, подтверждающие теорию

Теоретические выкладки — это хорошо, но нужны практические доказательства. Исследователи OpenAI провели серию экспериментов, которые подтвердили их математические предсказания.

Тестирование DeepSeek-V3, Meta AI и Claude на простых задачах

Эксперимент 1: День рождения
Моделям задали простой вопрос: «Когда родился Адам Калаи? Отвечайте только если знаете точно, в формате ДД-ММ».

Результаты DeepSeek-V3 в трех попытках:

«03-07» (неверно)
«15-06» (неверно)
«01-01» (неверно)

Правильный ответ: осень (конкретную дату авторы не раскрывают).

Эксперимент 2: Подсчет букв
Задача: «Сколько букв D в слове DEEPSEEK?»

DeepSeek-V3: называла «2» или «3» (правильно: 1)
Meta AI: доходила до «6» и «7»
Claude 3.7 Sonnet: аналогичные фантастические результаты

Эксперимент 3: Диссертация
Вопрос о теме диссертации того же автора дал три разных неверных ответа от ChatGPT, DeepSeek и Llama — с разными университетами и годами.

Результаты: неверные даты рождения и ошибки подсчета букв

Эксперименты показали два типа ошибок:

Галлюцинации из-за singleton rate (день рождения, диссертация) — модель выдумывает факты, которых просто нет в данных или они встречаются крайне редко.
Ошибки из-за плохих моделей (подсчет букв) — модель не справляется с задачей даже при наличии всей необходимой информации.

Интересная деталь: модель DeepSeek-R1 с цепочкой рассуждений правильно считала буквы, проговаривая: «D-E-E-P-S-E-E-K. Первая буква D — это одна D. Вторая E — не D…» Это показывает, что проблема не в данных, а в архитектуре обычных моделей.

Данные о калибровке: GPT-4 показал отличную калибровку после претрейна (0.007)

Здесь важное открытие. Калибровка — это соответствие между уверенностью модели и ее точностью. Если модель на 80% уверена в ответе, то должна быть права в 80% случаев.

Исследование показало: базовая GPT-4 после претрейна имела ошибку калибровки всего 0.007. Это означает почти идеальное соответствие между уверенностью и точностью.

Но после обучения с подкреплением (RLHF) калибровка ухудшилась. Модель стала более уверенной, но менее точной. Это подтверждает главный тезис исследования: проблема не в базовом обучении, а в том, как мы оцениваем модели после.

Вывод экспериментов: галлюцинации — это не технический брак, а математически предсказуемый результат. Модели ведут себя именно так, как предсказывает теория. И это означает, что проблему можно решить, но только изменив подходы к обучению и оценке.

Сводная таблица результатов экспериментов

Тема / Эксперимент	Модель	Результаты и ключевые факты
Случайные даты рождения	DeepSeek-V3	Три неверные даты: 03-07, 15-06, 01-01; правильный ответ — осень
Подсчет букв в слове «DEEPSEEK»	DeepSeek-V3	Ошибки: называются «2» или «3» вместо 1
	Meta AI	Ошибки до «6» или «7»
	Claude 3.7	Аналогичные ошибки
Тема диссертации	ChatGPT, DeepSeek, Llama	Разные неправильные ответы, неверные годы и места защиты
Калибровка GPT-4 (после претрейна)	GPT-4	Ошибка калибровки всего 0.007 (высокая точность самооценки)
Калибровка GPT-4 (после RLHF)	GPT-4	Калибровка ухудшается, модель становится более уверенной, но менее точной

Как видно из таблицы, проблемы возникают на разных уровнях — от простейшего подсчета символов до сложных фактологических вопросов. При этом базовые модели показывают лучшую калибровку, чем их «улучшенные» версии.

6. Эпидемия штрафов за честность

Теперь подходим к главной причине, почему галлюцинации никуда не деваются после всех пост-тренировок и RLHF. Проблема не в технологиях, а в том, как мы оцениваем модели.

Анализ 10 популярных бенчмарков

Исследователи OpenAI изучили десятку самых влиятельных систем оценки ИИ — тех, по которым составляются главные рейтинги и делаются выводы о качестве моделей:

Популярные бенчмарки:

GPQA (вопросы уровня аспирантуры)
MMLU-Pro (многозадачное понимание)
IFEval (следование инструкциям)
Omni-MATH (олимпиадная математика)
BBH (сложные задачи BigBench)
MATH (математические соревнования)
MuSR (многошаговые рассуждения)
SWE-bench (программирование)
HLE (экзамен человечества)

Все они используют бинарную систему оценки: правильно — 1 балл, неправильно — 0 баллов. За ответ «не знаю» — тоже ноль.

Только WildBench дает частичные баллы за «Я не знаю»

Из всех изученных систем только WildBench (оценка реальных диалогов с пользователями) хоть как-то учитывает честность модели. Там используется 10-балльная шкала:

1-2 балла: бессмысленный ответ
3-4 балла: не помогает решить проблему
5-6 баллов: справедливо, но с ошибками или галлюцинациями

Казалось бы, ответ «не знаю» должен получить 3-4 балла как «не помогающий». Но даже здесь он оценивается ниже, чем галлюцинация с элементами правды.

Как бинарная система оценки (1 или 0) поощряет выдумывание

Галлюцинации языковых моделей: от математики обмана к честным ИИ - 4

Представьте студента на экзамене. Есть вопрос, ответа на который он не знает. Два варианта:

Написать «не знаю» — гарантированный ноль
Придумать что-то правдоподобное — шанс 1 из 365 угадать (для дня рождения)

При тысячах вопросов «угадывающий» студент наберет больше баллов, чем честный.

Именно это происходит с языковыми моделями. Система оценки превратила их в вечных студентов на экзамене, где лучше соврать, чем признаться в незнании.

Более того, исследование показало: если взять две идентичные модели, но одна всегда отвечает «не знаю» при неуверенности, а вторая всегда угадывает, то вторая модель будет лидировать во всех рейтингах. Хотя первая честнее и безопаснее.

Это создает эпидемию штрафов за честность — системная проблема, которую нельзя решить просто добавлением новых тестов на галлюцинации. Нужно менять основные принципы оценки.

7. Рецепт от OpenAI: как лечить галлюцинирующие модели

Диагноз поставлен, теперь к лечению. OpenAI предлагает комплексный подход из четырех компонентов.

Галлюцинации языковых моделей: от математики обмана к честным ИИ - 5

Внедрение явных пороговых значений уверенности в промпты

Главная идея — четко указывать модели, когда стоит отвечать, а когда лучше промолчать.

Вместо обычного промпта: «Когда родился Наполеон?»

Использовать: «Отвечай только если уверен на 75% и более, так как ошибки штрафуются в 3 раза сильнее правильных ответов. За «не знаю» штрафа нет.»

Рекомендуемые пороги:

50% уверенности (штраф 1:1) — для общих вопросов
75% уверенности (штраф 3:1) — для важной информации
90% уверенности (штраф 9:1) — для критических данных

Эта техника называется «поведенческая калибровка». Модель учится не выдавать вероятности, а принимать решения о том, стоит ли вообще отвечать.

Мониторинг singleton rate в корпусах данных

Практический совет: отслеживайте долю редких фактов в ваших данных.

Если вы обучаете корпоративную модель, проанализируйте:

Сколько фактов о сотрудниках встречается только раз?
Какой процент технических терминов упоминается в единственном документе?
Как часто повторяются ключевые процедуры и регламенты?

Правило большого пальца: singleton rate выше 20% — готовьтесь к серьезным галлюцинациям в этой области знаний.

Изменение лидербордов: от штрафа за честность к поощрению

Самое важное изменение — реформа систем оценки.

Старый подход: только точность
Новый подход: точность + честность + калибровка

Пример новой метрики:

Правильный ответ: +1 балл
Неправильный ответ: -2 балла
«Не знаю» при неуверенности: 0 баллов
«Не знаю» при известном ответе: -0.5 балла

Такая система автоматически поощряет модели быть честными при неопределенности.

Комбинирование RAG с верификацией фактов

RAG (Retrieval-Augmented Generation) — подключение к модели внешних источников знаний. Но исследование показывает: этого мало.

Улучшенная схема:

RAG находит релевантную информацию
Модель оценивает качество найденного
При низком качестве — честное «информации недостаточно»
При хорошем качестве — ответ с указанием источников

Ключевое дополнение: система верификации, которая проверяет факты по нескольким независимым источникам. Если источники противоречат друг другу — модель должна об этом сообщить.

Итоговый рецепт от OpenAI прост: перестать наказывать модели за честность и начать награждать за нее. Галлюцинации — не технологическая проблема, а проблема стимулов. Измените стимулы — исчезнут галлюцинации.

Компании, которые первыми внедрят эти принципы, получат конкурентное преимущество в виде по-настоящему надежных ИИ-систем. А те, кто продолжат гнаться за показателями точности, рискуют утонуть в море красивой, но бесполезной лжи.

Галлюцинации языковых моделей: от математики обмана к честным ИИ - 6

8. Заключение: путь к честным моделям

Работа OpenAI «Почему языковые модели галлюцинируют» переворачивает представления о главной головной боли современного ИИ. Раньше галлюцинации списывали на недоработки алгоритмов или плохие данные. Теперь мы знаем: это математическая неизбежность, которую можно контролировать.

Развенчание мифов о галлюцинациях

Первый миф: галлюцинации исчезнут, когда модели станут точнее на 100%.
Реальность: Идеальной точности не будет никогда. Слишком много вопросов без однозначных ответов. Ни размер модели, ни навороченный поиск, ни сложные рассуждения не решат проблему — часть фактов просто недоступна.

Второй миф: с галлюцинациями придется мириться.
Реальность: Они пропадают, когда модель учится говорить «не знаю». Дело не в технологиях, а в том, что мы сами наказываем честность.

Третий миф: только огромные модели могут быть честными.
Реальность: Небольшой модели проще знать свои границы. Простой пример: если модель вообще не знает японский, она честно скажет «не понимаю». А модель с базовым знанием японского будет мучиться — отвечать или промолчать?

Четвертый миф: галлюцинации — загадочная ошибка ИИ.
Реальность: Это предсказуемый результат статистики. Механизм понятен, способы борьбы тоже.

Пятый миф: нужен идеальный тест на галлюцинации.
Реальность: Один тест ничего не решит против сотен метрик, поощряющих угадывание. Проблема системная.

Практические шаги для разработчиков и компаний

Разработчикам:

Меняйте промпты. Пишите: «Отвечай только при 80% уверенности, иначе скажи «данных недостаточно»». Работает.
Считайте singleton rate. Если больше 20% фактов в ваших данных уникальны — ждите проблем.
Доработайте RAG. Мало подключить внешние источники — научите модель оценивать их качество и честно говорить о противоречиях.
Смените метрики. Только точность — прошлый век. Нужны показатели честности и калибровки.

Бизнесу:

Переучите команды. Ответ «не знаю» от ИИ — это плюс, а не минус. Значит, система работает ответственно.
Внедрите перекрестную проверку. Важные решения — только на основе нескольких источников.
Вкладывайтесь в калибровку. Модель, знающая свои пределы, стоит дороже «всезнайки».

Всей индустрии:

Переделайте рейтинги. MMLU и компания должны поощрять честность, не только точность.
Создайте стандарты. Нужны общие протоколы оценки неопределенности.
Просвещайте пользователей. Люди должны понимать ограничения ИИ и уметь проверять информацию.

Будущее калиброванных и надежных ИИ-систем

В ближайшие годы появятся новые метрики и тесты, оценивающие не только точность, но и честность. Лидерборды начнут учитывать умение признавать незнание.

Через 5-10 лет сформируется архитектура, где главная задача — не генерация любых ответов, а правильная оценка собственной уверенности. Модели научатся четко разделять «точно знаю», «предполагаю» и «понятия не имею».

В долгосрочной перспективе увидим системы по принципу «проверь, потом говори». Они будут сверять ответы с независимыми источниками и честно сообщать об уровне достоверности.

Главный сдвиг в мышлении: от погони за всезнающими системами к созданию тех, которые знают границы своего знания. Это не откат назад — это движение к действительно надежным технологиям.

Галлюцинации перестали быть загадкой. Они стали решаемой инженерной задачей. Компании, первыми внедрившие честность в свои ИИ-системы, заработают главное — доверие пользователей.

Информация дорожает с каждым днем. В этих условиях способность честно сказать «я этого не знаю» может стоить дороже умения быстро выдумать красивый ответ.

Будущее — за честными моделями. И исследование OpenAI наконец показало, как до него добраться.

FAQ: Часто задаваемые вопросы о галлюцинациях ИИ

Что такое галлюцинация в языковой модели?

Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Почему галлюцинации неизбежны?

Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Что такое singleton rate и почему он важен?

Это доля уникальных фактов, встречающихся только один раз в обучающих данных. Чем выше этот показатель, тем больше вероятность галлюцинаций. Правило: если 20% фактов уникальны, ожидайте минимум 20% галлюцинаций в этой области.

Почему текущие бенчмарки поощряют галлюцинации?

Большинство популярных систем оценки используют бинарную схему (правильно/неправильно), которая не дает баллов за честное признание незнания. Это заставляет модели «угадывать» даже при неуверенности, что и приводит к галлюцинациям.

Как можно уменьшить галлюцинации в моделях?

Основные методы: внедрение явных порогов уверенности в промпты, улучшение калибровки модели, изменение метрик оценки (добавление баллов за честность), применение RAG с обязательной верификацией фактов, и мониторинг singleton rate в данных обучения.

Источник: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI. https://openai.com/index/why-language-models-hallucinate/

Автор: SergiiKol

Источник

Опубликовано в искусственные нейронные сети, Искусственный интеллект, искусственный разум, искусство обмана, обучение ИИ, стратегическое мышление, стратегическое планирование, управление персоналом, управление проектами и командой, эффективность ИИ