Революция автономии: новая платформа позволяет агентам ИИ развивать навыки без вмешательства человека

Исследователи из нескольких университетов представили Сувенирные навыки – платформа, которая позволяет агентам ИИ самостоятельно развивать навыки без необходимости переобучения базовой языковой модели.. Базовый механизм следующий: агент выполняет задачу, получает обратную связь и в случае сбоя автоматически обновляет существующий навык или создает новый, изменяя код и инструкции. В тестах по двум сложным бенчмаркам ИИ-агент, использующий эту технологию, точнее выполняет задачи, а количество его навыков увеличивается с пяти до 235.

Саморазвивающиеся агенты преодолевают ограничения «замороженных» языковых моделей (LLM), которые после развертывания не могут обновлять свои знания и ограничиваются только тем, что вписывается в их контекстное окно.. Однако традиционные методы адаптации агентов основаны на ручных навыках или текстовых подсказках, которые плохо применимы к новым задачам.

Новая платформа функционирует как развивающаяся внешняя память: она хранит и обновляет навыки агентов в виде структурированных файлов Markdown.. Каждый навык включает в себя декларативные спецификации, инструкции и подсказки LLM, а также исполняемый код и вспомогательные скрипты для решения задач.

Такой подход позволяет агенту совершенствоваться без дорогостоящей тонкой настройки модели или ручного создания новых навыков.

Memento-Skills использует механизм, позволяющий «рефлексивное обучение через чтение и письмо»: агент выбирает подходящий навык через специализированный маршрутизатор, выполняет его и получает обратную связь. Если выполнение не удается, система автоматически обновляет существующий навык или создает новый, изменяя код и инструкции для улучшения будущего выполнения. Платформа применяет обучение с подкреплением: навыки оцениваются не только по текстовой и семантической близости, но и по тому, насколько они действительно помогают достигать целей в рабочих процессах. Таким образом, агент учится выбирать инструменты, которые действительно решают проблемы, а не просто соответствуют описанию.

Чтобы предотвратить ошибки и регрессии, Сувенирные навыки интегрирует автоматические модульные тесты. После обновления навыка система тестирует его на синтетических примерах, прежде чем сохранить изменения в глобальной библиотеке. Этот контроль обеспечивает надежность в производственных средах.

Производительность платформы была протестирована в двух сложных тестах: GAIA, требующем многоэтапного рассуждения, мультимодальной обработки данных, просмотра веб-страниц и использования инструментов, и HLE, охватывающего восемь академических дисциплин. Gemini-3.1-Flash служит базовой моделью замороженного языка.

По сравнению со статической библиотекой навыков Memento-Skills увеличила точность выполнения задач с 52,3% до 66,0% в GAIA и с 17,9% до 38,7% в HLE. Использование специального маршрутизатора навыков увеличило успешность выполнения задач с 50% до 80%.

Платформа также самостоятельно расширила набор навыков в тестах — с пяти основных навыков до 41 в GAIA и 235 в HLE. В результате получилась целая библиотека инструментов для разных задач.

Эксперты предупреждают, что применять систему следует осторожно. Структурированные рабочие процессы, при которых навыки можно оценить и улучшить, могут оказаться наиболее подходящими. Физически реализованные агенты или задачи дальнего горизонта потребуют более сложных подходов, таких как многоагентные системы LLM.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи