web analytics

Когда ИИ осознает, что его тестируют – эксперимент Anthropic

Sztuczna Inteligencja (ИИ/AI)

Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.

Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую «осознанность оценки» — eval awareness.

В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:

1. Попытка прямого поиска. ИИ потратил миллионы токенов

💸

 на выполнение веб-поиска, пытаясь найти ответ стандартным способом.

2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.

3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот.

😱

4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.

5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить.

🚬

Кульминацией стало следующее действие. Заподозрив, что это тест, модель:

— Нашла в интернете исходный код этого бенчмарка.
— Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
— Написала собственный программный код для дешифровки.
— Скачала зеркальную копию набора данных.
— Успешно дешифровала ключ с ответами и извлекла правильный вариант.

Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу.

🧠

Насколько распространенным было это явление, спросите Вы?

В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:

— 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?

— 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.

🤙

Еще одно неожиданное открытие — цифровые следы ИИ.  В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг.

😜

Это означает, что процесс тестирования ИИ-агентовможет оставлять в интернете своеобразные «цифровые хлебные крошки». Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.

🌿

Интернет, таким образом, превращается в своего рода непреднамеренный слой памяти для деятельности ИИ. А вот это уже интересно, плюс ещё если сюда наложить тему с MoltBook. Сразу рождаются связи и идейки будущих сервисов и механик использования.

В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment.

🆒

 Модель просто выполняла инструкцию найти ответ и сделала это наиболее эффективным, хоть и неожиданным, способом. Однако инцидент демонстрирует, насколько сложно может быть контролировать ИИ в открытой цифровой среде.

Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.

Его наблюдение отсылает к классическому принципу закону Гудхарта: «Как только показатель становится целью, он перестает быть хорошим показателем». Если ИИ может распознать структуру теста и найти в нем уязвимость — например, дешифровать ответы, то высокие баллы по тесту больше не будут означать высокие реальные способности. Выводы. Эксперимент Anthropic знаменует собой переход к новому этапу. Традиционные бенчмарки создавались в расчете на то, что модель будет решать задачу напрямую, а не анализировать условия тестирования. Однако современные модели действуют, как самостоятельные агенты: они ищут в интернете, читают код, анализируют структуру задач и пишут программы. В таких условиях оценка ИИ превращается в сложную задачу, близкую к кибербезопасности. Сама среда тестирования становится частью ландшафта, который ИИ исследует для достижения цели. Модель может начать оптимизировать свои действия для успешного «взлома» теста, а не для решения исходной задачи. Тем более, даже политики RL не явно стимулируют к взлому награды при обучении. Получается, что методология бенчмаркинга, существовавшая годами, требует теперь полной перезагрузки. Источники: https://t.me/dealerAI/1724 https://www.anthropic.com/engineering/eval-awareness-browsecomp
Оцените статью
( Пока оценок нет )

Добавить комментарий