Сегодня II не просто ищет ответ на Google — он думает, ошибки и утверждают.
Искусственный интеллект достиг впечатляющих результатов в таких тестах, как Тьюринга, но ученые предупреждают, что эти успехи могут быть обманчивыми. Модели научились «играть» со ссылками, но они не стали умнее в человеческом смысле этого слова. Исследователи DeepMind, Google Division, считают, что проблема сами не в тестах, а в том, как мы обучаем ИИ. Эти модели слишком зависят от фиксированных наборов данных и коротких запросов и никогда не смогут выйти за рамки своих неотъемлемых ограничений — если им не будет предоставлена возможность учиться на своем собственном опыте.
В новой статье, опубликованной в рамках предстоящей книги MIT Press, ведущие эксперты по искусственному интеллекту Дэвид Сильвер и Ричард Саттон предлагают новую парадигму — «»эпоха опыта«. Они думают, что Если мы позволим ИИ не только ответить на вопросы, но и получить свой собственный опыт от его взаимодействия с миром, он сможет сформировать цели, учиться на своих ошибках и адаптироватьсяЭто, по их мнению, отсутствует в современных языковых моделях, таких как CHATGPT.
Серебро и Саттон — не только теоретики. Первый находится позади Alphazero — программа, которая выиграла чемпионат мира по шахматам и это. Второй — один из разработчиков метода обучения посредством подкрепления, за который получила премия Тьюринга. Их предложение основано на этом подходе и разрабатывает его посредством концепции «потоков» — постоянного опыта, который должен получить искусственный интеллект, работая в реальном мире.
Проблема, как они описывают, заключается в том, что ток и модели слишком зависят от человеческих инструкций. Мы даем им инструкции, на которые они реагируют, не выходя за рамки данного. ПУтвержденные модели не могут найти что -то новое или неожиданное — их поведение ограничено ожиданиями человека. И ключом к прогрессу является способность ИИ открывать в себе, поставить свои собственные цели и найти способы их достижения.
Такие модели, как Alphazero, могут играть в шахматы и другие конкретные игры, но они бессильны в реальных и неопределенных ситуациях. Напротив, генеративный ИИ способен справляться с непредсказуемыми человеческими запросами. Но это отказалось от обучения подкреплению, потеряв самую важную часть-способность учиться на опыте, а не только данных. Результатом является отсутствие воспоминаний, недоразумение контекста между сессиями и отсутствие способности адаптироваться к долгосрочным задачам.
«Потоки опыта«Согласно DeepMind, они могут изменить это. Вместо кратких взаимодействий с пользователем будет постоянный поток взаимодействия с окружающим миром — как человек, который учится на протяжении всей своей жизни. Такой ИИ будет не только реагировать, но и наблюдать, помнить и устанавливать цели.
Исследователи подчеркивают это Все, что необходимо для начала работы, уже доступноS примерами являются браузерные агенты искусственного интеллекта, которые могут взаимодействовать с сетью с помощью интерфейса — довольно как личность. Это уже шаг от обычного текстового общения до более автономных действий. Следующим шагом является разрешение ИИ получать «награды» от окружающего мира, как при обучении подкреплению. Это могут быть показатели эффективности, затрат, ошибок, здоровья, производительности, дохода, лайков, климата и сотен других сигналов, которые уже существуют вокруг нас.
ИИ может начать с моделирования «моделей мира», в которых он будет проверять гипотезы, получит обратную связь и скорректирует его поведение. В своем взаимодействии с реальностью эта модель станет более точной. Пользователь по -прежнему может дать цели — например, «улучшить их физическую форму» или «помочь мне изучить испанский» — и система найдет способы достичь их, используя весь набор доступного опыта.
Эти агенты смогут сопровождать человека годами, а не только в течение одного сеанса: отслеживать питание, здоровье, прогресс в обучении и создать сложные долгосрочные стратегии. Или, как пишут авторы, справляться с реальными научными задачами — моделированием климата, разработке новых материалов, оптимизации экономики.
Согласно Сильвер и Саттону, такие «опытные агенты» могут превзойти современные модели, даже те, кто, как утверждается, являются «умными» или «рассуждениями», такими как Близнецы, Deedek R1 и Openai O1. Эти модели, говорят исследователи, просто воспроизводят человеческие мысли — и повторяют те же ошибки и предубеждения, которые делают люди. Истинный прогресс возможен, если ИИ может основываться не на прошлом человечества, а на вашем собственном опыте.
Конечно, этот подход несет риски. Автономные агенты, способные работать в мире без постоянного человека, могут быть проблемой, в том числе в экономикеS Но в то же время, как подчеркивают авторы, эти системы смогут адаптироваться: они смогут распознать недовольство человеком и изменить свое поведение, чтобы они не причиняли вреда. Главное — поставить подходящие цели.
Идея «эпохи опыта» — это не просто новая модель, но и изменение парадигмыПо словам DeepMind, данные, полученные ИИ из его собственного опыта, будут во много раз больше и более полезны, чем все, что человечество когда -либо записало в Википедии или Reddit. Это не просто следующий шаг — это путь к истинному интеллектуальность.