DeepSeek научился обучать лингвистические модели ИИ независимо от ограничений по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемая в инфраструктуре искусственного интеллекта, становится существенным ограничением для дальнейшего улучшения производительности языковых моделей. DeepSeek утверждает, что разработала метод обучения моделей ИИ, который обходит эти ограничения памяти.

Группа исследователей из Пекинского университета в сотрудничестве с соучредителем DeepSeek Ляном Вэньфэном опубликовала статью, в которой изучается новый подход к изучению языковых моделей, который позволяет «агрессивное увеличение количества параметров‘, минуя ограничения памяти подсистемы, используемой в ускорителях графического процессора.

Ожидается, что DeepSeek выпустит новую версию своей большой языковой модели, но темпы ее разработки серьезно сдерживаются экспортными ограничениями США и ограниченностью ресурсов в Китае. Новая статья, соавтором которой является один из основателей DeepSeek, будет тщательно изучена экспертами по искусственному интеллекту как в Китае, так и за рубежом.

Техника для «условноКак отмечает South China Morning Post, использованию памяти, описанному в статье, присвоено обозначение Engram. По мнению китайских исследователей, существующие вычислительные подходы к изучению больших языковых моделей тратят ресурсы на тривиальные операции, которые можно было бы высвободить для операций рассуждения высокого уровня.

Исследователи предложили в некотором смысле разделить вычисления и управление памятью, что позволило бы более эффективно извлекать основную информацию. В то же время новая технология позволяет большим языковым моделям лучше обрабатывать длинные контекстные цепочки, приближая нас к цели превращения агентов ИИ в полноценных помощников-людей.

В ходе эксперимента новый подход к обучению модели с 27 миллиардами параметров увеличил общую производительность на несколько процентов. Кроме того, система получила больше ресурсов для проведения сложных рассуждений. По мнению авторов исследования, такой подход будет незаменим для обучения языковых моделей следующего поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намерена представить новую модель V4 с расширенными возможностями по написанию программного кода к середине февраля этого года.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх