DeepSeek-V4: новый китайский гигант с 1 миллионом токенов контекста атакует лидерство OpenAI

С тех пор, как в январе прошлого года компания DeepSeek выпустила модель логического искусственного интеллекта DeepSeek-R1, получившую широкое признание, никаких серьезных обновлений выпущено не было. В Интернете время от времени появляются слухи о новой модели искусственного интеллекта от DeepSeek, но похоже, что она будет выпущена в следующем месяце. мультимодальная модель DeepSeek-V4, которая получит существенные улучшения по сравнению с предыдущей версией.

По словам Вейсиня, команда разработчиков DeepSeek, возглавляемая соучредителем Ляном Вэньфэном, провела последние шесть месяцев, работая над исправлением недостатков DeepSeek в обработке визуального контента и улучшением поиска с помощью искусственного интеллекта. Компания стремится улучшить способность модели ИИ генерировать программный код, а также поработать над расширением контекстного окна. DeepSeek начал сотрудничать с Baidu еще в прошлом году для достижения своих целей.

Пользователи профессиональных платформ по всему миру пытаются выловить следы новой версии DeepSeek. Несколько дней назад алгоритмы Целитель Альфа и Охотник Альфа появился на OpenRouter, крупнейшем агрегаторе API для моделей ИИ. Модель Healer Alpha — это мультимодальная языковая модель, которая может воспринимать визуальную и аудиоинформацию, выполнять кросс-модальные рассуждения и выполнять многошаговые задачи с высокой точностью. При этом размер контекстного окна алгоритма составляет всего 260 тысяч токенов. Hunter Alpha разработан специально для приложений на основе агентов. Он представляет собой модель с триллионами параметров и контекстным окном в 1 миллион токенов. В описании говорится, что алгоритм хорошо справляется с долгосрочным планированием, сложными рассуждениями и непрерывным выполнением многоэтапных задач. Он может точно следовать полученным инструкциям, что важно при работе с такими платформами, как OpenClaw, для создания агентов ИИ.

На фоне появления этих двух языковых моделей в социальной сети X вновь поднялась волна обсуждений о предстоящем выпуске DeepSeek-V4. Судя по предыдущим публичным заявлениям о ДипСик-В4 однако, модель имеет десятки триллионов параметров, контекстное окно в 1 миллион токенов и возможность понимать и генерировать мультимодальные данные, т.е. обработку и создание текста, изображений и видео.. Это означает, что характеристики последних алгоритмов OpenRouter не полностью соответствуют ожидаемым параметрам DeepSeek-V4.

Согласно этой информации, направление развития следующая версия DeepSeek посвящена улучшению долговременной памяти, которая считается одной из важнейших особенностей языковых моделей.. За последние шесть месяцев Лян Вэньфэн стал соавтором трех исследовательских работ, связанных, среди прочего, с изучением способов улучшения долговременной памяти о языковых моделях.

Результаты исследований Вэньфэна и его команды также показывают четкую траекторию технологического развития. Проверив парадигму обучения с подкреплением для возможностей рассуждения в DeepSeek-R1, разработчики изучают дальнейшие инновации в базовой архитектуре. В частности, благодаря новым модулям, таким как «условная память«Они пытаются улучшить производительность алгоритма, решая известные проблемы традиционной архитектуры с точки зрения памяти и вычислительной мощности. Эта деятельность также является технологической подготовкой к запуску DeepSeek-V4. Кроме того, новый алгоритм будет глубоко адаптирован к китайским ИИ-ускорителям и может стать первой моделью ИИ, полностью работающей в рамках «отечественной экосистемы вычислительных мощностей».

Ожидается, что в апреле рынок моделей искусственного интеллекта в Китае будет чрезвычайно активным. Кроме того, ожидается появление новой версии DeepSeek. еще одна модель искусственного интеллекта Tencent с 30 миллиардами параметров.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх