Китайская компания DeepSeek опубликовала документ, предлагающий переосмыслить базовую архитектуру, используемую при обучении базовых моделей ИИ. Одним из авторов документа является глава компании Лян Вэньфэн.
DeepSeek предлагает метод под названием «Манифолдно-ограниченные гиперсоединения» (mHC).
Этот метод помогает повысить экономическую эффективность моделей ИИ и позволяет им не отставать от конкурентоспособных американских решений, разработчики которых имеют доступ к значительным вычислительным ресурсам. Опубликованные исследования DeepSeek отражают культуру открытости и сотрудничества разработчиков ИИ в Китае, которые публикуют значительную часть своих исследований в открытом доступе. Статьи DeepSeek также могут указывать на инженерные решения, которые компания использует в своих будущих разработках.
Группа из 19 исследователей компании отметила, что метод mHC был протестирован на моделях ИИ с 3, 9 и 27 миллиардами параметров, и его использование не привело к значительному увеличению вычислительной нагрузки по сравнению с традиционным методом гиперссылок (Гиперподключения — HC). Базовый метод Hyper-Connections был предложен исследователями ByteDance в сентябре 2024 года как модификация ResNet (Остаточные сети), доминирующая архитектура глубокого обучения, которая была представлена учеными Microsoft Research Asia еще в 2015 году.
ResNet позволяет обучать глубокие нейронные сети таким образом, чтобы ключевая информация (остаточные данные) сохраняться при увеличении количества слоев. Эта архитектура используется для обучения моделей ИИ OpenAI GPT и Google DeepMind AlphaFold AI и имеет важное ограничение: при прохождении через слои нейронной сети обучающий сигнал может стать универсальным представлением, одинаковым для всех слоев, т. е. он рискует оказаться неинформативным. Гиперссылки успешно решают эту проблему за счет расширения потока остаточных данных и увеличения сложности нейронной сети «без изменения вычислительной нагрузки отдельных блоков», но в то же время увеличивается нагрузка на память, а это не позволяет этой архитектуре масштабироваться при обучении больших моделей ИИ, указывает DeepSeek.
Для решения этой проблемы DeepSeek предлагает метод mHC, который «поможет преодолеть существующие ограничения и потенциально откроет новые возможности для разработки фундаментальных архитектур следующего поколения». По словам экспертов, исследовательские работы, опубликованные компанией, часто указывают на техническое направление последующих моделей ИИ. Ожидается, что DeepSeek сможет представить новую базовую модель искусственного интеллекта в середине февраля.
`, // — БАННЕР 2 (Новости Google) — `
`, // — БАННЕР 3 (Viber) — `
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

