Команда исследователей из Стэнфорда и Вашингтонского университета разработала модель S1, обучая ее менее чем за 50 долларов в облачных расчетах. Модель демонстрирует результаты, сравнимые с ведущими отраслью, такими как OpenAI O1 и DeepSeek-R1. Данные и код обучения S1 доступны в GitHub.
Модель создается с использованием метода дистилляции, в котором ИИ обучается в ответах на другое решение. Экспериментальное флэш -мышление Google Gemini 2.0 используется в качестве основы. Исследователи отмечают, что обучение занимает менее 30 минут с помощью 16 графических процессоров NVIDIA H100, а стоимость аренды вычислительной мощности составляет около 20 долларов.
Ученые говорят, что успех проекта поднимает вопросы о защите коммерческих моделей искусственного интеллекта. Openai ранее начал расследование DeepSeek за возможное неправильное использование данных из его API.
Условия Google также запрещают реверс -инженерию для своих конкурентных услуг. Тем не менее, исследователи еще не получили комментарии от компании о проекте.
По словам ученых, эксперимент показывает, что создание эффективных моделей рассуждений не требует крупных ресурсов. Используя только 1000 тщательно выбранных вопросов и ответа, команда достигла значительных результатов.
Однако, однако, один из методов повышения точности состоит в том, чтобы попросить модель «подождать», прежде чем дать ответ, что увеличивает его время мышления. Исследователи также отмечают, что это особое обнаружение дистилляции ИИ. Другими словами, разработка модели лежит за счет других решений.
Крупные компании по искусственному искусству, такие как Meta, Google и Microsoft, планируют инвестировать сотни миллиардов долларов в разработку инфраструктуры и обучения новых продуктов искусственного интеллекта.
Но эксперименты, такие как S1, показывают, что инновации возможны со скромными бюджетами, говорят ученые. Тогда он может поставить под сомнение необходимость крупных инвестиций для достижения конкурентных результатов, говорят они.