Google представила новую архитектуру для обработки длинных последовательностей Titans и теоретическую основу MIRAS, которая сочетает в себе скорость рекуррентных сетей с точностью преобразователей. Компания заявила, что этот подход помогает моделям лучше запоминать важные детали в очень длинных контекстах, от больших документов до геномных данных.
Классические трансформеры совершают революцию в механизме внимания: модель может «оглянуться назад» и выделить значимые части текста. Но за это приходится платить.Вычислительная сложность внимания увеличивается квадратично с длиной последовательности.поэтому масштабирование преобразователей для контекстов с миллионами токенов становится слишком ресурсоемким.
Исследовательское сообщество уже пыталось обойти это ограничение с помощью более быстрых линейных архитектур — например, эффективных RNN и моделей класса State Space, таких как Mamba-2. Они сжимают предыдущий контекст в вектор фиксированного размера, поэтому вычислительные затраты увеличиваются линейно. Но именно из-за жесткого ограничения объема памяти эти модели плохо справляются с действительно богатыми и длинными последовательностями, где важно не потерять тонкие связи между фактами.
В двух новых статьях Google предлагает набор Titans и MIRAS. Титаны это конкретная архитектура, МИРАС — это общая теоретическая основа, описывающая такие системы как тип ассоциативной памяти. Вместе они разработали идею «инференциальной памяти»: модель можно переобучить сразу во время ее выполнения, не только путем извлечения информации из параметров, но и путем обновления долговременной памяти по мере поступления данных.
Основная идея Титанов заключается в том, что модель имеет несколько уровней памяти, аналогичных кратковременной и долговременной памяти у людей. Кратковременную часть по-прежнему обеспечивает механизм внимания, который хорошо работает на локализованных участках текста. Но долговременная память реализована не как простой вектор или матрица фиксированного размера, а как полноценная глубокая нейронная сеть — многослойный перцептрон. Благодаря этому модель может гораздо полнее кодировать контекст прошлого и «понимать» историю, а не просто хранить набор заметок.
Другая ключевая идея заключается в механизм неожиданности. В жизни мы легко забываем рутинные действия, но прекрасно помним события, выходящие за рамки заданной закономерности. Титаны используют аналогичный принцип: модель сравнивает текущее состояние памяти с новым поступающим сигналом и вычисляет, насколько он для нее «неожидан». Если расхождение небольшое, информация может не сохраниться в долговременной памяти. Если входной сигнал резко отклоняется от ожиданий, это верный признак того, что перед нами важный или аномальный факт, который стоит сохранить.
Чтобы система реагировала не только на разовые прыжки, в Титаны добавлены два элемента. Прежде всего, «импульс«—модель учитывает не только текущую неожиданность, но и недавнюю историю, чтобы уловить цепочки связанных событий. Во-вторых, механизм забывания за счет адаптивного снижения веса. Это своего рода «клапан», который предохраняет память от переполнения при работе с чрезвычайно длинными последовательностями и постепенно отбрасывает устаревшую информацию.
MIRAS описывает весь этот класс моделей на более абстрактном уровне.. Эта теория рассматривает любую архитектуру последовательностей как ассоциативную память, которая учится сопоставлять ключи и значения, балансируя две задачи: учиться новому и не разрушать старое. MIRAS выделяет четыре ключевых компонента: структуру самой памяти, то, как модель выбирает, на что обратить внимание, механизм сохранения и забывания и алгоритм оптимизации, с помощью которого память обновляется.
Google уделяет особое внимание тому факту, что MIRAS выходит за рамки обычных евклидовых показателей, таких как среднеквадратическая ошибка и скалярное произведение. В большинстве современных моделей именно MSE и скалярное произведение лежат в основе как «предвзятости» модели, так и механизмов регуляризации памяти. Это удобно, но делает систему чувствительной к внешним отклонениям и ограничивает класс приемлемых решений. MIRAS предлагает более богатое пространство целей и регуляторов, опираясь на идеи оптимизации и статистики, и, таким образом, открывает путь к архитектурам с нестандартными, неевклидовыми функциями потерь.
В рамках этой концепции исследователи Google разработали три конкретные модели, не имеющие явной направленности: YAAD, MONETA и MEMORA. ЯАД использует более мягкий штраф за ошибки за счет потерь Хубера и более терпим к зашумленным данным, где возможны опечатки или отдельные артефакты. МОНЕТА экспериментировал с более сложными нормами и проверял, могут ли строгие математические «правила» запоминания и забывания улучшить стабильность долговременной памяти. МЕМОРА пытается максимально стабилизировать память, заставляя ее вести себя как распределение вероятностей, чтобы каждое обновление состояния было контролируемым и точным.
В ходе экспериментов модели Titans и MIRAS сравнивались с современными архитектурами, такими как Transformer++, Mamba-2 и Gated DeltaNet. Тестирование проводилось на стандартных наборах данных языкового моделирования, таких как C4 и WikiText, а также на здравых задачах с нулевым шагом, включая HellaSwag и PIQA. Google утверждает, что новые модели демонстрируют меньшую сложность и лучшую точность, чем базовые архитектуры сопоставимого размера, сохраняя при этом линейную масштабируемость и возможности параллельного обучения.
Преимущество Титанов особенно заметно на задачах с очень длинными контекстами.. В бенчмарке BABILong, где необходимо делать выводы на основе фактов, разбросанных по очень длинным документам, архитектура Титанов превосходит все базовые модели, включая такие большие системы, как GPT-4, несмотря на то, что содержит гораздо меньше параметров. Авторы также отмечают, что Titans удается масштабировать контекстное окно до значений выше 2 миллионов токенов и при этом сохранять качество.
Отдельные исследования показывают, что решающую роль играет глубина модуля памяти. При одном и том же «размере» памяти, но разной глубине, более глубокие варианты дают последовательно меньшую запутанность и лучше масштабируются по мере увеличения длины последовательности. Это еще один аргумент в пользу того, что богатая и глубокая долговременная память действительно помогает моделям ориентироваться в очень длинных последовательностях.
В результате Google позиционирует Titans и MIRAS как ступеньку к новому поколению моделей, которые могут обучаться на лету, хранить важные детали в обширных контекстах и при этом оставаться достаточно эффективными для практического использования.. Теоретическая основа MIRAS соединяет онлайн-оптимизацию, ассоциативную память и архитектурное проектирование, а сама архитектура Titans демонстрирует, как скорость RNN можно сочетать с выразительной силой Transformers в эпоху долгоконтекстного искусственного интеллекта.
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

