Исследователи Google представили новый подход к машинному обучению — «встроенное обучение«, что позволяет моделям изучать новые задачи, не теряя ранее приобретенных навыков. Этот метод предназначен для преодоления так называемого «катастрофического забывания», когда добавление новых данных приводит к потере ранее изученной информации.
Большие языковые модели, несмотря на быстрый прогресс, продолжают сталкиваться с проблемами непрерывного обучения. В отличие от человеческого мозга, который способен к нейропластичности и сохраняет старые знания при изучении новых, существующие модели ИИ ограничены контекстным окном ввода информации или статистической информацией из предыдущего обучения.
Попытки просто обновить параметры модели новыми данными часто приводят к «катастрофическое забвение«, где теряются навыки, приобретенные в предыдущих задачах. Раньше исследователи пытались бороться с этим за счет изменения архитектуры и улучшения алгоритмов обучения. Архитектура модели и алгоритмы оптимизации (правила обучения) рассматривались как отдельные элементы. Это препятствовало созданию по-настоящему единой и эффективной системы обучения.
Встроенное обучение представляет данную модель ИИ как набор взаимосвязанных задач оптимизации.. В этом случае архитектура модели и алгоритм ее обучения представляются как разные уровни одного и того же процесса. Каждый из них имеет свой собственный контекстный поток и обновляется со своей частотой.
Это похоже на ассоциативную память: модель учится связывать новые данные с уже известными, сохраняя при этом старые знания. Ключевые компоненты, такие как механизм внимания в преобразователях, помогают находить связи между фрагментами информации. В результате модель адаптируется к новым задачам, не забывая при этом то, чему она уже научилась.
Чтобы проверить концепцию, исследователи создали архитектуру Надеяться. В отличие от своих предшественников, которые имеют только два уровня обновления параметров, Hope использует неограниченное количество уровней контекстного обучения. Ее память построена по принципу систем непрерывной памяти: не два фиксированных блока, «краткосрочный» и «долговременный», а спектр слоев, каждый из которых обновляется со своей скоростью. Архитектура самостоятельно оптимизирует свои знания и масштабируется для более крупных контекстных окон.
Эксперименты показывают, что Хоуп обрабатывает длинные последовательности информации более точно и надежно, чем существующие модели.. Он способен решать задачи «Игла в стоге сена» различной сложности, когда в большом объеме текста необходимо найти мелкую деталь, и превосходит по производительности современные архитектуры, включая Титаны, Самбу и стандартные трансформеры.
Исследователи полагают, что новая методика поможет приблизить возможности искусственного интеллекта к гибкости человеческого мозга и послужит основой для следующего поколения самосовершенствующихся моделей.

