web analytics

Виноваты ли плохие стимулы в галлюцинациях ИИ?

Без рубрики

В новой исследовательской работе OpenAI рассматривается вопрос о том, почему большие языковые модели, такие как GPT-5, и чат-боты, такие как ChatGPT, все еще галлюцинируют, и можно ли что-то сделать, чтобы уменьшить эти галлюцинации.

В сообщении в блоге, подытоживающем статью , OpenAI определяет галлюцинации как «правдоподобные, но ложные утверждения, генерируемые языковыми моделями», и признает, что, несмотря на улучшения, галлюцинации «остаются фундаментальной проблемой для всех крупных языковых моделей» — проблемой, которая никогда не будет полностью устранена.

В качестве иллюстрации исследователи приводят пример: когда они спросили «широко распространенного чат-бота» о названии докторской диссертации Адама Таумана Калаи, они получили три разных ответа, и все они были неверными. (Калай — один из авторов статьи.) Затем они спросили о его дне рождения и получили три разных ответа. И снова все они оказались неверными.

Как чат-бот может настолько ошибаться — и при этом казаться настолько уверенным в своей неправоте? Исследователи предполагают, что галлюцинации возникают отчасти из-за процесса предварительной подготовки, направленного на то, чтобы модели правильно предсказывали следующее слово, без добавления меток «истина» или «ложь» к обучающим утверждениям: «Модель видит только положительные примеры беглой речи и должна аппроксимировать общее распределение».

«Орфография и скобки следуют постоянным закономерностям, поэтому ошибки в них исчезают с ростом масштаба», — пишут они. «Но произвольные, редко встречающиеся факты, такие как день рождения домашнего животного, невозможно предсказать только по закономерностям, и, следовательно, они приводят к галлюцинациям».

Однако предлагаемое в статье решение фокусируется не столько на первоначальном процессе предобучения, сколько на оценке больших языковых моделей. В статье утверждается, что существующие модели оценки сами по себе не вызывают галлюцинаций, но «задают неверные стимулы».

Исследователи сравнивают эти оценки с тестами с множественным выбором, где случайное угадывание имеет смысл, потому что «вам может повезти, и вы окажетесь правы», а оставление ответа пустым «гарантирует ноль». 

«Точно так же, когда модели оцениваются только по точности, по проценту вопросов, на которые они отвечают абсолютно правильно, их поощряют делать догадки, а не говорить «я не знаю»», — говорят они.

Таким образом, предлагаемое решение похоже на тесты (например, SAT), которые включают «отрицательные [баллы] за неправильные ответы или частичные зачёты за оставленные вопросы пустыми, чтобы предотвратить слепое угадывание». Аналогичным образом, OpenAI утверждает, что оценки моделей должны «наказывать за ошибки, связанные с уверенностью, сильнее, чем за неопределённость, и давать частичные зачёты за уместные проявления неопределённости».

Исследователи утверждают, что недостаточно просто ввести «несколько новых тестов, учитывающих неопределенность». Вместо этого «широко используемые оценки, основанные на точности, необходимо обновить, чтобы их результаты исключали попытки угадывания».

«Если основные табло продолжат поощрять удачные догадки, модели продолжат учиться угадывать», — говорят исследователи.

Источник:
https://techcrunch.com/2025/09/07/are-bad-incentives-to-blame-for-ai-hallucinations/

Оцените статью
( Пока оценок нет )

Добавить комментарий