Инженеры DeepSeek представили новую экспериментальную модель, V3.2-EXP, которая обеспечивает половину более низкой цены за вывод и значительное ускорение для длинных контекстов.
«Как промежуточный шаг к архитектуре следующего поколения, V3.2-EXP дополняет v3.1-концерт путем введения деппека« — объявила компанию в публикации на платформе Hugbing Face, отметив в сообщении в социальных сетях, что цены API были снижены более чем на 50%.
Используя механизм DeepSeek Sparse Attity (DSA), который действует как интеллектуальный фильтр, модель выбирает наиболее важные фрагменты контекста, из которых она использует токены для выбора системы для выбора конкретных моментов для загрузки в окне внимания ограниченного модуля.
Метод объединяет крупнозернистые токены с мелкозернистым выбором, гарантируя, что модель не теряет более широкий контекст. DeepSeek утверждает, что новый механизм отличается от нативной технологии разреженного внимания, ранее представленной в этом году и может быть изменен для предварительно обученных моделей.
В контрольных тестах V3.2-EXP находится на равных с предыдущей версией модели ИИ. По данным TechStartups.com, в тестах на рассуждение, кодирование и использование инструментов различия являются незначительными — часто в пределах одного или двух точек — в то время как улучшение производительности является значительным. Модель выполнялась в 2-3 раза быстрее в долгосрочном контекстном выводе, снизила потребление памяти на 30-40% и удвоила эффективность обучения. Для разработчиков это означает более быстрое время отклика, снижение затрат на инфраструктуру и более плавный путь внедрения.
TechCrunch отмечает, что преимущества системы довольно важны для долгосрочных контекстов. Дополнительные тесты необходимы для более надежной оценки модели, но, поскольку она является открытым исходным кодом и свободно доступна на платформе объятий, пользователи могут оценить эффективность новой разработки DeepSeek через тесты.

