Новое исследование китайских исследователей показывает, что обучение крупных языковых моделей (LLM) для выполнения сложных автономных задач не обязательно требует огромных наборов данных. Основываясь на такой работе в других областях обучения LLM, они разработали структуру, которая показывает, что «машинная автономия не связана не с обилием данных, а из стратегического отбора высококачественных примеров агентов». Другими словами, качество важно, а не объем данных.
Современные учебные системы предполагают, что чем выше уровень интеллекта, необходимый для агента искусственного интеллекта, тем больше объем данных, необходимых для его обучения. Исследователи говорят, что этот подход приводит к все более и более сложным процессам обучения и значительным затратам на ресурсы. Более того, во многих областях данные ограничены, трудно поставлять и очень дороги.
Тем не менее, исследования в других областях показывают, что это не обязательно, сообщает Venture Beat. Например, статья с 2023 года показывает, что модель может быть эффективной даже при обучении только на 1000 тщательно выбранных примеров. Фрейм -лим (меньше для интеллектуального агентства, разработанного командой, «больше для интеллектуальных агентов») использует тот же принцип.
Экспериментируя, исследователи обнаруживают, что с небольшим, но тщательно отобранным набором данных, состоящих из 78 примеров, они могут создавать LLM, который значительно превзойдет модели, обученные тысячам примеров, ключевыми показателями для отрасли.
Ключевым элементом структуры является конвейер для сбора высококачественных примеров задач агента. Каждый пример состоит из двух частей: запрос и траектория. Запрос — это запрос пользователя на естественном языке, такой как требование для разработки программного обеспечения или цели научных исследований. Траектория — это последовательность шагов, которые предпринимает искусственный интеллект для выполнения запроса, включая внутренние размышления, запросы на использование внешних инструментов и наблюдений за окружающей средой. Траектория может включать многочисленные итерации планирования, реализации и рассмотрения до достижения желаемой цели.
«Этот подход гарантирует, что наши модели учатся не только из успешных результатов, но и в результате всего процесса решения проблем, включая то, как адаптировать стратегии и восстановление от неудач во время совместной реализации».
Исследователи пишут
Подход, описанный в исследовании, может быть полезен для построения приложений в ситуациях, когда данные дефицитны или их собирают, стоит дорого.
Чтобы добавить, что новая технология MEMP, разработанная китайскими учеными, предоставляет агенты динамической памяти LLM, что делает их более эффективными в решении сложных задач. Эта «процедурная память» постоянно обновляется с помощью накопления опыта, аналогично тому, как люди учатся через действия.

