Китайский стартап DeepSeek прославился в начале этого года с I-Model R1способный к «мышлению», которому удалось конкурировать с американскими технологическими гигантами, несмотря на его скромный бюджет. Теперь DeepSeek опубликовал статью в сотрудничестве с исследователями из Университета Цинхуа, в которой подробно описывался новый подход к моделям обучения и подкрепления, который позволяет им значительно повысить свою эффективность. Об этом сообщили ресурс SCMP.
Согласно публикации, новый метод направлен на то, чтобы помочь II-моделированию лучше реагировать на предпочтения человека, используя механизм наград для более точных и понятных ответов.
Обучение подкреплению оказалось эффективным в ускорении задач ИИ в ограниченных областях и приложениях. Однако использование его для более общих задач не так эффективно. Команда DeepSeek пытается решить эту проблему, объединив моделирование генеративного вознаграждения (Грм) SO -SALLED. Самокритические принципы, основанные на принципах. Как утверждается в статье, новый подход к улучшению способности рассуждать о крупных языковых моделях (LLM) превышает существующие методы, которые подтверждаются проверкой моделей в различных тестах и обеспечивают наивысшую производительность для общих запросов, используя при этом меньше вычислительных ресурсов.
Новые i-модели называются Deepseek-grm, что является аббревиатурой моделирования вознаграждений общего пользования (Универсальное моделирование вознаграждений) Компания заявила, что они будут с открытым исходным кодом, но дата запуска не была объявлена. В прошлом месяце Reuters объявил, что сослался на информированные источники, что компания выпустит R2 в апреле.
Другие ведущие разработчики искусственного интеллекта, в том числе китайская группа Alibaba и Openai, базирующаяся в Сан-Франциско, также работают над улучшением возможностей для рассуждений и выращивания моделей II, отмечает Bloomberg.