Китайский искусственный интеллект DeepSeek-R1 обдумывает и проверяет свои решения

В Китае разработали модель искусственного интеллекта DeepSeek-R1, которая умеет рассуждать о задачах и проверять свои выводы. Технологию представила исследовательская лаборатория DeepSeek, финансируемая хедж-фондом High-Flyer Capital Management. Создатели утверждают, что DeepSeek-R1 способен конкурировать с моделью o1 OpenAI по двум популярным критериям оценки — AIME и MATH.

ДипСик-Р1 применяет уникальный подход к обработке запросов: вместо немедленного ответа модель делит проблему на этапы и анализирует ее шаг за шагом. Решение некоторых сложных запросов может занять у алгоритма несколько десятков секунд.. Этот метод помогает минимизировать ошибки, характерные для других моделей ИИ. Однако пользователи отметили, что система плохо справляется с некоторыми базовыми логическими играми, такими как крестики-нолики.

DeepSeek-R1 уже вызвал споры среди экспертов из-за своей уязвимости для обхода механизмов безопасности. В сети появились примеры того, как ИИ инструктирует пользователей создавать запрещенные вещества. Кроме того, алгоритм отказывается обсуждать темы, которые регулируются властями Китая, например, события на площади Тяньаньмэнь или возможный конфликт с Тайванем. Эти ограничения обусловлены требованием уважать «основные социалистические ценности», установленные государственным регулятором.

Интерес к системам «машинного мышления» вырос на фоне замедления прогресса в разработке моделей, основанных исключительно на увеличении объемов данных и вычислительной мощности. Разработчики DeepSeek-R1 используют подход под названием «вычисление во время тестирования', что позволяет модели использовать дополнительные ресурсы для анализа задач. Об этой технологии рассказал генеральный директор Microsoft Сатья Наделла, заявивший о появлении новой «модели масштабирования» искусственного интеллекта.

DeepSeek планирует превратить DeepSeek-R1 в проект с открытым исходным кодом. предоставляя разработчикам код и API. Лаборатория уже прославилась своей моделью DeepSeek-V2, которая оказала влияние на рынок, такие компании, как ByteDance, Baidu и Alibaba, были вынуждены снизить цены или даже сделать свои услуги бесплатными.

High-Flyer Capital Management активно поддерживает проект и использует 10 000 графических процессоров Nvidia A100 для обучения моделей. Серверный кластер компании стоит около 138 миллионов долларов. доллар. Глава компании Лян Вэньфэн заявил, что ее конечная цель — создать «сверхразум», превосходящий человеческий интеллект.

Развитие искусственного интеллекта с функцией мышления отражает общую тенденцию поиска новых подходов к его развитию. Традиционные методы уточнения моделей, основанные на увеличении вычислительной мощности и объема данных, в последние годы столкнулись с ограничениями. Это заставляет исследователей искать инновационные пути, такие как использование дополнительных ресурсов для выполнения задач в реальном времени (вычисления во время тестирования).

Китай занимает особое место в развитии ИИ, поскольку активно инвестирует в новые технологии. Согласно недавно опубликованному рейтингу мировых экосистем искусственного интеллекта, эта страна занимает второе место в отрасли искусственного интеллекта и готова выйти на лидирующие позиции. Секрет успеха Китая заключается в патентах, беспрецедентном объеме инвестиций и четкой национальной стратегии.

Похожие записи