Китайская модель Deepseek R1 была обучена только за 294 000 долларов

Разработчик китайского DeepSeek Artificial Intelligence выявил стоимость обучения своей модели R1. Согласно статье в журнале Nature, обучение системы обошлось компании всего на 294 000 долл. США меньше, чем ее американские конкуренты. Модель R1 была обучена с использованием графических процессоров 512 Nvidia H800, созданных специально для китайского рынка и заняла около 80 часов.

Заявления компании в ярком контрасте со словами лидера Openai Сэма Альтмана, который утверждает, что стоит обучение основных моделей ».Более 100 миллионов долларов«В то же время некоторые американские эксперты выразили сомнения в том, какие технологии использовали китайская компания.

В частности, Соединенные Штаты утверждают, что DeepSeek может иметь доступ к мощным чипам NVIDIA H100, несмотря на ограничения, наложенные в 2022 году на их экспорт в Китай. Тем не менее, сама Nvidia сообщила Reuters, что компания использовала законно приобретенные H800, специально предназначенные для китайского рынка. Статья Deepseek — это первый случай, когда Deepseek признает, что в ней есть чипсы A100, но они использовались только на ранних стадиях экспериментов. Тем не менее, Reuters уже отметил, что это был доступ к кластеру суперкомпьютеров A100, который сделал компанию одним из немногих в Китае, которому удалось привлечь лучшие таланты.

Deepseek также впервые ответил, хотя косвенно, на заявления, сделанные в январе советником Белого дома и рядом представителей индустрии американской индустрии искусственного интеллекта, которые, предположительно, «адаптировали» модели Openai для разработки своих собственных.

В публикации компания описывает метод «дистилляции» — подход, при котором новая модель обучается на основе уже существующей модели. Согласно DeepSeek, именно благодаря этому методу достигает высокой эффективности при более низких затратах.

В январе компания заявила, что использовала модель AI Meta Open для создания некоторых улучшенных версий собственных систем. DeepSeek признает, что ее модели могут косвенно наследовать знания от OpenaI, поскольку некоторые из данных обучения собираются на веб -страницах, которые содержат ответы, сгенерированные CHATGPT. Но это стало непроизвольным, а не в результате целенаправленного использования.

В январе запуск модели Deepseek R1 вызвал огромную суету: акции ведущих мировых технологических компаний снизились из -за опасений, что дешевые китайские аналоги могут поколебать позиции лидеров США в отрасли, включая Nvidia.

Несмотря на большой интерес, компания Deepseek и ее основатель Лян Венфен сами остаются чрезвычайно закрытыми. С января компания только иногда публикует обновления о своих новых продуктах. Эта статья в Nature предлагает позади -SCENES, которые смотрят на детали DeepSeek Development.

Похожие записи