Несмотря на всю удивительность LLM, улучшение их знаний сегодня представляет собой более фрагментарный процесс, чем это широко признается. Я писал о том, насколько удивительна искусственная интеллигенция… но не настолько удивительна. Также верно, что LLM являются общими… но не настолько общими. Мы не должны верить в неточные заявления о том, что LLM являются путем к AGI всего за несколько лет, но мы также не должны верить в противоположные, также неточные заявления о том, что они являются лишь демонстрационным программным обеспечением. Вместо этого я считаю полезным иметь более точное представление о текущем пути к созданию более интеллектуальных моделей.
Во-первых, LLM действительно являются более общей формой интеллекта, чем предыдущие поколения технологий. Именно поэтому один LLM может применяться для решения широкого спектра задач. Первая волна технологий LLM достигла этого за счет обучения на общедоступном веб-сайте, который содержит много информации по широкому кругу тем. Это сделало их знания гораздо более общими, чем у предыдущих алгоритмов, которые были обучены выполнять одну задачу, такую как прогнозирование цен на жилье или игра в одну игру, например шахматы или го. Однако они гораздо менее общие, чем человеческие способности. Например, после предварительного обучения на всем контенте общедоступного Интернета LLM все еще с трудом адаптируется к написанию в определенных стилях, которые были бы доступны многим редакторам, или к надежному использованию простых веб-сайтов.
После использования практически всей открытой информации в Интернете прогресс стал более сложным. Сегодня, если передовая лаборатория хочет, чтобы LLM хорошо справлялся с конкретной задачей — например, писал код на определенном языке программирования или говорил разумные вещи о конкретной нише, скажем, в здравоохранении или финансах — исследователи могут пройти трудоемкий процесс поиска или генерации большого количества данных для этой области, а затем подготовить эти данные (очистить низкокачественный текст, удалить дубликаты, перефразировать и т. д.), чтобы создать данные, которые дадут LLM эти знания.
Или, чтобы модель могла выполнять определенные задачи, такие как использование веб-браузера, разработчики могут пройти еще более трудоемкий процесс создания множества RL gyms (симулированных сред), чтобы алгоритм мог повторно практиковаться в выполнении узкого набора задач.
Типичный человек, несмотря на то, что он видел гораздо меньше текста или практиковался гораздо меньше в учебных средах по использованию компьютера, чем современные передовые модели, тем не менее может обобщать гораздо более широкий спектр задач, чем передовая модель. Люди могут делать это, используя непрерывное обучение на основе обратной связи, или благодаря превосходным представлениям нетекстового ввода (то, как LLM токенизируют изображения, по-прежнему кажется мне хаком), а также многим другим механизмам, которые мы еще не понимаем.
Сегодня для продвижения передовых моделей необходимо принимать много ручных решений и использовать ориентированный на данные подход к искусственному интеллекту для разработки данных, которые мы используем для обучения наших моделей. Будущие прорывы могут позволить нам продвигать LLM менее фрагментарно, чем я описываю здесь. Но даже если этого не произойдет, я ожидаю, что постоянные постепенные улучшения в сочетании с ограниченной степенью обобщения и проявления «эмерджентного поведения» этих моделей будут и дальше стимулировать быстрый прогресс.
В любом случае, нам следует готовиться к многолетней упорной работе. Впереди нас ждет долгий, тяжелый — и увлекательный! — путь по созданию более интеллектуальных моделей.







