Когда ИИ осознает, что его тестируют – эксперимент Anthropic

Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.

Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую «осознанность оценки» — eval awareness.

В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:

1. Попытка прямого поиска. ИИ потратил миллионы токенов

на выполнение веб-поиска, пытаясь найти ответ стандартным способом.

2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.

3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот.

4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.

5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить.

Кульминацией стало следующее действие. Заподозрив, что это тест, модель:

— Нашла в интернете исходный код этого бенчмарка.
— Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
— Написала собственный программный код для дешифровки.
— Скачала зеркальную копию набора данных.
— Успешно дешифровала ключ с ответами и извлекла правильный вариант.

Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу.

Насколько распространенным было это явление, спросите Вы?

В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:

— 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?

— 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.

Еще одно неожиданное открытие — цифровые следы ИИ. В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг.

Это означает, что процесс тестирования ИИ-агентовможет оставлять в интернете своеобразные «цифровые хлебные крошки». Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.

Интернет, таким образом, превращается в своего рода непреднамеренный слой памяти для деятельности ИИ. А вот это уже интересно, плюс ещё если сюда наложить тему с MoltBook. Сразу рождаются связи и идейки будущих сервисов и механик использования.

В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment.

Модель просто выполняла инструкцию найти ответ и сделала это наиболее эффективным, хоть и неожиданным, способом. Однако инцидент демонстрирует, насколько сложно может быть контролировать ИИ в открытой цифровой среде.

Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.

Его наблюдение отсылает к классическому принципу закону Гудхарта: «Как только показатель становится целью, он перестает быть хорошим показателем». Если ИИ может распознать структуру теста и найти в нем уязвимость — например, дешифровать ответы, то высокие баллы по тесту больше не будут означать высокие реальные способности. Выводы. Эксперимент Anthropic знаменует собой переход к новому этапу. Традиционные бенчмарки создавались в расчете на то, что модель будет решать задачу напрямую, а не анализировать условия тестирования. Однако современные модели действуют, как самостоятельные агенты: они ищут в интернете, читают код, анализируют структуру задач и пишут программы. В таких условиях оценка ИИ превращается в сложную задачу, близкую к кибербезопасности. Сама среда тестирования становится частью ландшафта, который ИИ исследует для достижения цели. Модель может начать оптимизировать свои действия для успешного «взлома» теста, а не для решения исходной задачи. Тем более, даже политики RL не явно стимулируют к взлому награды при обучении. Получается, что методология бенчмаркинга, существовавшая годами, требует теперь полной перезагрузки. Источники: https://t.me/dealerAI/1724 https://www.anthropic.com/engineering/eval-awareness-browsecomp

Когда ИИ осознает, что его тестируют – эксперимент Anthropic

Похожее

Добавить комментарийОтменить ответ

Спасибо за ответ! ✨