От пилотного проекта до производства: отслеживание перехода к агентным системам и коммерциализации логических рассуждений.
Во второй половине 2025 года ИИ перешел от экспериментальных перспектив к повседневной работе. Модели теперь способны анализировать сложные рабочие процессы. Предприятия масштабируют агентные системы. Регуляторные препятствия стали реальными.
В этом кратком обзоре, позволяющем отсеять лишнюю информацию, представлены ключевые показатели, лежащие в их основе архитектурные изменения и шаги, которые необходимо предпринять в ближайшее время.
Краткий обзор для руководителей: информация в шуме
Период, предшествовавший январю 2026 года, ознаменовал собой явный разрыв между истинным рассуждением и простым сопоставлением образов. Более ранние модели неуклонно совершенствовались, но выпуск GPT-5.2 от OpenAI 11 декабря 2025 года принес резкий скачок в вычислительной мощности. В то же время изменения в законодательстве ЕС превратили управление ИИ из абстрактной проблемы в конкретное требование для закупок.
Технический переломный момент
GPT-5.2 от OpenAI представляет собой самый значительный прогресс со времен GPT-4.
В бенчмарке ARC-AGI-2 Verified, допускающем выполнение кода, модель показала рост с 17,6% (GPT-5.1 Thinking) до 52,9% (GPT-5.2 Thinking). Это относительный прирост в 200,6% в тесте, разработанном для оценки новых рассуждений, а не механического запоминания, что показывает, что архитектуры в «режиме мышления» теперь могут решать задачи, которые блокировали более ранние системы. Это соответствует показателю 80,0% в SWE-bench Verified, ключевом показателе для автономной разработки программного обеспечения.
Нормализация и масштабирование предприятия
В коммерческом секторе внедрение ускорилось, хотя масштабирование по-прежнему ограничено несколькими игроками.
Предприятия перешли от отдельных пилотных проектов к более масштабным испытаниям, и 88% из них теперь применяют ИИ как минимум в одной области. Тем не менее, только треть внедрила его во всей организации, и лишь 23% используют автономные агентные системы. Недавние показатели OpenAI — 1 миллион платящих корпоративных клиентов и 7 миллионов пользователей «ChatGPT for Work», рост на 40% за два месяца — подчеркивают этот импульс. Однако препятствия на пути внедрения накапливаются: Gartner прогнозирует, что к 2027 году 40% проектов по внедрению агентного ИИ будут отменены, поскольку технический прогресс опережает готовность корпораций.
Регулятивный уровень
Для всех, кто руководит продажами в Европе или осуществляет их в этом регионе, льготный период закончился.
Правила GPAI (General Purpose AI) в рамках Закона об искусственном интеллекте вступили в силу 2 августа 2025 года. В первом и втором кварталах 2026 года в сфере закупок и внедрения будут расти требования к документации, прозрачности и гарантиям поставщиков. То, что раньше было регуляторными препятствиями, теперь стало основной статьей операционных расходов.
Техническая панель: возможности и контрольные показатели
Во второй половине 2025 года ось конкуренции сместилась от «общих знаний» (где отдача уменьшается) к «глубине рассуждений» (где выгода увеличивается). Граница прогресса теперь определяется не тем, кто может правильно ответить на медицинский вопрос, а тем, кто может надежно выполнить многоэтапный рабочий процесс, не выдумывая логику.
Модель границы
OpenAI: GPT-5, выпущенный 7 августа 2025 года, установил новый стандарт для междисциплинарных навыков, показав результаты 84,2% в MMMU и 88,4% в GPQA (GPT-5 Pro с расширенным логическим выводом). GPT-5.2, выпущенный 11 декабря, пошел еще дальше, превзойдя ожидания благодаря решению самых сложных задач: 93,2% в GPQA Diamond (GPT-5.2 Pro с расширенным логическим выводом) и 40,3% в FrontierMath (GPT-5.2 Thinking) — задачах, которые ранее казались недоступными для магистров права.
Google: Gemini 3, выход которого запланирован на 18 ноября 2025 года, сравнялся с OpenAI по уровню развития логических вычислений. Его режим «Глубокое мышление» показал результат 93,8% на GPQA Diamond и впечатляющие 45,1% на ARC-AGI-2 с выполнением кода. Борьба сместилась с простого прогнозирования токенов на интеграцию инструментов и глубину логических рассуждений.
Стратегия Challenger (Anthropic и Mistral): Claude 4, выпущенный 22 мая 2025 года, демонстрирует хорошие результаты в агентских рабочих процессах, набрав 35,5% (Claude Sonnet 4) и 43,2% (Claude Opus 4) на Terminal-bench для обработки данных в реальных условиях. Mistral, базирующийся в Европе, занял нишу в соотношении цены и производительности с Medium 3 по цене 0,40/2,00 доллара за 1 миллион токенов, что делает его идеальным для работы с большими объемами данных по ценам ниже, чем на американском рынке.
Архитектурные сдвиги: расцвет «мышления»
В конце 2025 года три технических прорыва перешли из разряда научных статей в производственные API:
- Вычисления во время вывода («Режимы мышления»): Режимы рассуждения стали ключевыми функциями. В отчете Qwen3 из Китая рассматривается различие между мышлением и отсутствием мышления как преднамеренный компромисс между задержкой и точностью, подобно опциям «Мышление/Глубокое мышление», которые теперь являются стандартом в OpenAI и Google.
- Результаты после обучения и масштабирование RL: скачки от GPT-5.1 до 5.2, например, увеличение доли алгоритмов FrontierMath Tier 1–3 с 31,0% (GPT-5.1 Thinking) до 40,3% (GPT-5.2 Thinking), указывают на значительные усилия в области RL на сложных синтетических данных. Прогресс зависит от обучения моделей лучшим мыслительным навыкам, а не просто от увеличения объема данных.
- Разреженное внимание (эффективность): Открытые проекты, такие как DeepSeek-V3.2, снижают затраты на рассуждения в контексте больших объемов данных за счет разреженного внимания и агентных конвейеров. Это повышает производительность без обычного резкого увеличения вычислительных ресурсов при использовании расширенных окон.
Влияние на бизнес и экономику
Влияние ИИ на бизнес в начале 2026 года обусловлено тремя взаимосвязанными факторами: почти повсеместным внедрением, быстрым снижением удельных издержек и интенсивной концентрацией капитала. В этом разделе рассматривается, где ИИ фактически используется в производстве, какова стоимость «интеллекта» и как капитал концентрируется вокруг небольшого числа поставщиков инфраструктуры и моделей.
Показатели внедрения в масштабах предприятия
Искусственный интеллект в корпоративной среде стал повсеместным явлением, но масштабы его влияния неравномерны. Большинство организаций сообщают об использовании ИИ в той или иной сфере, однако лишь меньшинство отмечает существенное повышение производительности, а еще меньшая группа получает значительную выгоду.
В этих условиях дистрибуция превратилась в надежное защитное поле. Несколько платформ теперь обладают очень большой установленной базой и постоянным использованием, что укрепляет их преимущество в петлях обратной связи, интеграциях и влиянии на процесс закупок. Этот масштаб также отражается в данных о внедрении агентных систем: явное большинство организаций экспериментируют с агентами ИИ, хотя лишь небольшая их часть развернула их в значимом функциональном масштабе.
Стоимость токена и тенденции ценообразования
Стоимость новых возможностей быстро снижается, особенно в части ввода данных. Новые флагманские модели обеспечивают значительно более низкие цены за входной токен, а также гораздо большие контекстные окна, фактически предлагая более чем в два-три раза больший полезный контекст примерно за половину прежней стоимости.
Эти изменения напрямую влияют на рабочие нагрузки RAG, анализ длинных документов и сложные трассировки с использованием нескольких инструментов, где длина и объем контекста являются основными факторами, определяющими стоимость. В то же время агрессивные ценовые шаги конкурентов, особенно в Европе, подрывают позиции передовых лабораторий США в отношении экономически чувствительных или регулируемых ЕС развертываний, заставляя покупателей отдавать приоритет надежности, соответствию стандартам и качеству интеграции, а не доступу к единому «премиальному» семейству закрытых моделей.
Инвестиционная аналитика (приток капитала, оценка стоимости, слияния и поглощения)
Капитал сосредоточен вокруг небольшой группы поставщиков моделей и инфраструктуры, даже несмотря на то, что прикладной уровень продолжает расширяться. Частные инвестиции в ИИ в США по-прежнему значительно опережают инвестиции в Китае, несмотря на активные усилия по наверстыванию упущенного и очень крупные инвестиции отдельных компаний в инфраструктуру ИИ.
На самом высоком уровне мега-раунды инвестиций в ведущие лаборатории моделирования и облачных провайдеров закрепили тенденцию, при которой несколько платформ поглощают непропорционально большую долю глобального финансирования в области ИИ. Для предприятий такая концентрация увеличивает потенциальную зависимость от поставщика, но также повышает вероятность того, что небольшое количество платформ с большим капиталом будет продолжать снижать себестоимость продукции, одновременно расширяя ее возможности.
Исследования, регулирование и экспертные сигналы
В конце 2025 года регулирование и безопасность перестали быть второстепенными факторами и стали первостепенными ограничениями. В этом разделе рассматривается, как ЕС и Китай меняют условия развертывания, и как оценки безопасности продолжают отставать от роста потенциала.
Регулирование и управление: ЕС и Китай
В ЕС обязательства в отношении искусственного интеллекта общего назначения (ИИ общего назначения) в соответствии с Законом об ИИ теперь действуют, а не являются гипотетическими, и правила применяются к новым моделям ИИ общего назначения, размещаемым на рынке ЕС с 2 августа 2025 года. Поставщики должны соответствовать требованиям к технической документации, прозрачности, соблюдению прав интеллектуальной собственности и управлению рисками, при этом полномочия по обеспечению соблюдения законодательства и штрафы будут постепенно увеличиваться в течение 2026–2027 годов. Для предприятий это означает ужесточение стандартов закупок: от поставщиков ожидается предоставление документации, сводных данных для обучения и средств контроля рисков, которые могут выдержать проверку регулирующих органов, в то время как покупателям все чаще требуется внутренний учет и классификация всех развернутых систем ИИ.
Тем временем Китай решительно продвинулся в вопросах управления контентом. Новые «Меры по маркировке контента, созданного искусственным интеллектом» требуют наличия как видимых, так и встроенных меток для текста, изображений, аудио и видео, созданных ИИ, начиная с 1 сентября 2025 года, и распространяются на платформы и поставщиков контента во всей цифровой экосистеме. Эти меры направлены на борьбу с дезинформацией и установление норм прозрачности, создавая обязательства по соблюдению требований для любой глобальной платформы, обслуживающей китайских пользователей, и повышая операционные издержки на немаркированный сгенерированный контент. В совокупности ЕС и Китай устанавливают де-факто глобальные базовые показатели: один сосредоточен на модельном управлении, другой — на маркировке результатов.
Исследования в области безопасности и внешние оценочные рейтинги
Внешние оценки неизменно показывают, что практика обеспечения безопасности отстает от прогресса в развитии возможностей. Индекс безопасности ИИ Института будущего жизни (лето и зима 2025 года) оценивает ведущие передовые лаборатории (включая Anthropic, OpenAI, Google DeepMind, Meta, xAI и несколько китайских компаний) в основном в диапазоне от C+ до D, при этом ни одна организация не получила оценку выше C. Anthropic лидирует с оценкой C+, за ней следуют OpenAI © и Google DeepMind (C-), в то время как китайские фирмы, такие как DeepSeek и Zhipu AI, получают неудовлетворительные оценки, отражающие слабую прозрачность, ограниченное тестирование опасных возможностей и неравномерные структуры управления.
Эти оценочные таблицы выявляют два основных пробела: систематическое тестирование опасных возможностей (например, в области биологических рисков, кибератак и крупномасштабных манипуляций) и надежный внешний надзор за внедрением моделей. Даже там, где лаборатории публикуют модельные карты, проводят «красные команды» или пилотные испытания по внедрению новых технологий, внешние эксперты все равно оценивают общую готовность сектора как недостаточную по сравнению с темпами роста возможностей. Для советов директоров и комитетов по управлению рисками это означает, что простое соблюдение нормативных требований еще не является подлинной зрелостью в области безопасности.
Сроки, установленные экспертами, и сдвиги в консенсусе.
Общедоступные прогнозы экспертов относительно сроков развития передового ИИ сжаты, но остаются широко распространенными. Академические и политические исследования, такие как отчет AI100 и масштабные опросы, продолжают демонстрировать широкий разброс оценок того, когда системы смогут сравняться с людьми или превзойти их в большинстве задач, при этом медианные прогнозы часто указывают на 2030-е годы. В то же время видные лидеры отрасли сформулировали более амбициозные прогнозы на 2024 и 2025 годы, утверждая, что качественно новые возможности, особенно в области автономности и использования инструментов, могут появиться в течение следующих нескольких лет.
Этот разрыв между более осторожными академическими сроками и более оптимистичными заявлениями руководителей имеет два практических последствия. Во-первых, он усиливает необходимость планирования на широкий спектр возможных сценариев будущего, а не привязываться к одной конкретной дате или сценарию. Во-вторых, он усиливает давление на организации в плане создания гибких систем управления, которые можно быстро масштабировать, если развитие возможностей будет происходить быстрее, чем это ожидается в соответствии с нормативными требованиями или внутренними процессами управления рисками.
Перспективная разведка: январь-июль 2026 г.
В конце 2025 года вопросы регулирования и безопасности перестали быть второстепенными и стали первостепенными ограничениями. В этом разделе изложены разумные предположения руководителей, за чем им следует внимательно следить, и какие сценарии следует рассматривать в рамках планирования рисков, связанных с повышением или понижением стоимости активов, а не в качестве базовых сценариев.
Высокая степень уверенности (>80%)
В течение следующих шести месяцев весьма вероятны три события.
- Соблюдение требований ЕС как механизм закупок: обязательства GPAI в соответствии с Законом ЕС об искусственном интеллекте уже распространяются на новые модели общего назначения, размещенные на рынке ЕС после 2 августа 2025 года, а полномочия по обеспечению соблюдения требований запланированы на август 2026 года, при этом полное соответствие требованиям для устаревших моделей должно быть обеспечено к августу 2027 года. На практике это превращает документацию, оценку рисков и прозрачность моделей в фактические требования к выбору поставщиков в 2026 году, задолго до того, как штрафы вступят в полную силу.
- Продолжающееся ценовое давление на переднем крае технологий: недавние изменения цен со стороны крупных поставщиков указывают на структурную гонку за снижение удельных издержек: GPT-5 от OpenAI предлагает более низкие цены на входные данные по сравнению с GPT-4o, одновременно расширяя контекст, а Anthropic снизила цену на Claude Opus примерно на две трети с выходом модели 4.5 поколения. Конкурентные ответы от таких соперников, как Mistral и DeepSeek, а также сильные открытые и региональные модели среднего уровня делают устойчиво высокие цены на базовые модели вывода всё более труднооправданными.
- Эксперимент с использованием ИИ в качестве стандартного решения: GPT-5.2 и аналогичные модели демонстрируют значительный прогресс в SWE-bench, SWE-bench Pro и тестах производительности инструментов, таких как Tau2-bench, поэтому все больше предприятий тестируют ИИ для создания запросов на слияние, их сортировки и написания тестов, а не для простого автозаполнения. Данные опросов и поставщиков указывают на растущую долю организаций, тестирующих агентов, которые открывают запросы на слияние, управляют проверками CI или выполняют рутинную отладку под контролем человека.
Средний уровень доверия (50–80%)
Некоторые тенденции выглядят более вероятными, чем нет, но зависят от политических решений и поведения рынка.
- Ужесточение китайских правил обработки данных и обучения: Проект мер, опубликованный в конце 2025 года, потребует явного согласия пользователей на использование журналов чатов для обучения, более четкого раскрытия информации о взаимодействии пользователей с ИИ и специальных мер защиты для несовершеннолетних, а консультации продлятся до конца января 2026 года. В случае принятия в аналогичной форме, они ограничат автоматический сбор данных о диалогах и подтолкнут поставщиков к более структурированным, основанным на добровольном согласии, каналам обработки данных.
- Концентрация капитала и выборочные слияния и поглощения: учитывая капиталоемкость обучения и обслуживания перспективных моделей, дальнейшая концентрация финансирования в небольшом количестве игроков, занимающихся моделями и инфраструктурой, является наиболее вероятным путем, наряду с целевыми приобретениями стартапов в области оценки, безопасности и вертикальных приложений. Многомиллиардные инвестиции SoftBank в OpenAI и крупные инфраструктурные проекты как в США, так и в Китае подтверждают эту тенденцию.
- Растущая значимость бенчмарков использования инструментов в маркетинге и закупках: такие бенчмарки, как ARC-AGI-2, GDPval, Tau Bench и Terminal-bench, более точно отслеживают реальные рабочие процессы, чем традиционные тесты с множественным выбором, и поставщики все чаще выдвигают их на первый план в презентациях и рекламных материалах. Покупатели, оценивающие «помощников» и агентов, должны ожидать большего внимания к структурированным оценкам использования инструментов, взаимодействия с рабочей средой и качества предоставляемых результатов.
Новые возможности (<50%)
Эти сценарии правдоподобны и важны, но недостаточно обоснованы, чтобы рассматривать их в качестве отправных точек для планирования.
- Еще один важный шаг вперед: быстрый темп развития технологий в 2025 году предполагает, что новая перспективная модель или существенное обновление могут появиться до середины 2026 года, но сроки зависят от циклов обучения, оценок безопасности и проверок со стороны регулирующих органов. Составлять бюджеты или планы на 2026 год, исходя из еще не анонсированной модели, было бы преждевременно.
- Более быстрый, чем ожидалось, подход ЕС к обеспечению соблюдения требований: Хотя формальное внедрение GPAI запланировано на 2026–2027 годы, предварительные рекомендации указывают на то, что регулирующие органы могут начать активно взаимодействовать с поставщиками и разработчиками в 2025–2026 годах, особенно после громких инцидентов или проблем, связанных с системными рисками. Более решительная надзорная позиция может привести к тому, что практические требования к аудитам, документации и отчетности об инцидентах будут предъявляться с большей интенсивностью, чем ожидают многие команды в настоящее время.
- Открытые и региональные модели, сокращающие разрыв в уровне агентных систем: открытые модели с переменными весами и региональные модели экспериментируют с такими методами, как разреженное внимание, синтетические обучающие данные для агентов и оптимизация в длительном контексте, чтобы бросить вызов закрытым системам в использовании инструментов и рассуждениях. В определенных нишах, таких как локальные развертывания, регулируемые отрасли или определенные языки программирования, эти модели могут соответствовать или превосходить закрытые альтернативы, но независимые оценки остаются ограниченными, поэтому большинство утверждений следует рассматривать как многообещающие, но пока недоказанные.
Стратегические выводы на 2026 год
К январю 2026 года картина относительно ясна: возможности, внедрение и регулирование продвинулись, но с разной скоростью. Модели, такие как GPT-5.2 и Gemini 3, вывели сложные логические рассуждения и производительность агентов на такой уровень, что серьезные рабочие процессы, такие как программирование, анализ данных и помощь в исследованиях, могут быть частично автоматизированы и подвергнуты значимой оценке. В то же время стоимость токенов резко снизилась, а внедрение в предприятиях стало нормой, а не исключением, поэтому ограничение сводится не столько к вопросу «Может ли модель это сделать?», сколько к вопросу «Можем ли мы интегрировать и управлять ею, не создавая неприемлемого риска?».
Для руководителей это влечет за собой три практических следствия:
- Рассматривайте ИИ как инфраструктуру, а не как точечный инструмент. Это означает централизацию управления поставщиками, стандартизацию оценки и мониторинга, а также создание общих сервисов (RAG, логирование, библиотеки подсказок, механизмы защиты) вместо того, чтобы позволять каждой команде собирать свой собственный стек.
- Следует исходить из того, что соответствие требованиям и гарантии качества будут учитываться при каждом серьезном развертывании, особенно в ЕС или вблизи него. Документация, результаты оценки, планы реагирования на инциденты и модельные списки становятся столь же важными, как и сами возможности, при выборе поставщиков и заключении контрактов.
- Сосредоточьтесь на ценности на уровне задачи, а не на расплывчатых заявлениях о производительности. Надежный способ получить выгоду от агентного программирования, совместных пилотов или автоматизации рабочих процессов — это внедрение инструментов в конкретные рабочие процессы, определение базовых KPI и отслеживание изменений в течение нескольких месяцев.
Если этот краткий обзор станет для вас регулярным форматом, его стратегическая ценность будет заключаться в последовательности: отслеживайте одни и те же основные показатели (обоснование, кодирование, цена, внедрение, регулирование) каждый квартал, следите за изменениями наклона кривой и соответствующим образом корректируйте операционные предположения.
Источник:
https://pub.towardsai.net/state-of-the-ai-january-2026-report-9f10ace0c23f




