Программисты, спокойно спит: искусственный интеллект далеко не заменит вас

Openai проверил, как крупные языковые модели (LLM) иметь дело с программированием и, боятся ли многие из нас, они скоро заменит людей в первых рядах развития. В рамках теста компания взяла 1488 задач с платформы Upwork — от небольших поправок до выполнения крупных проектов.

Upwork — крупнейшая в мире платформа фрилансеров, где клиенты находят исполнителей для различных задач: от программирования и дизайна до копирайтинга и виртуальной помощи. Более 20 миллионов фрилансеров со всего мира и около 5 миллионов клиентов зарегистрированы на платформе. Служба принимает роль посредника: она гарантирует оплату работы, предоставляет инструменты для коммуникации и управления проектами и помогает разрешить споры между клиентами и подрядчиками.

В эксперименте были представлены три изысканных LLM: GPT-4O и O1 от Openai и Claude 3.5 Sonnet от Anpropic. Они должны были выполнять работу, за что фрилансеры получили в общей сложности более миллиона долларов. Важно было не только написать код, но и решить, как технически реализовать каждый проект.

Задачи значительно варьировались по сложности и цене: от простых исправлений ошибок в 50 долларов до серьезных проектов стоимостью 32 000 долларов. Приблизительно 35% всех задач стоят более 1000 долларов, а еще 34% были оценены от 500 до 1000 долларов. Цена соответствовала фактическим платежам, которые фрилансеры получили за свою работу.

II должен был создавать мобильные и веб -приложения, подключать API, создавать работу с браузерами и внешними программами и справляться со сложными ошибками. Каждое решение было сначала подвергалось автоматическим тестам, а затем протестировано тремя опытными программистами.

Каждый LLM также был проверен в роли технического менеджера: он должен был принимать стратегические решения по архитектуре приложений, выбирать подходы к разработке и определить приоритеты для разработки инициативы. Выборы в области ИИ сравнивались с фактическими решениями лидеров, которые ранее руководили этими проектами.

Интересно, что многие задачи (около 90%) были связаны не с созданием новой функциональности, а с устранением существующих проблем в коде.

Claude 3.5 Sonnet выступил лучше всего. В ситуациях, когда ему просто нужно было программировать, он выполнил 26,2% задач — что принесет ему 208 000 долларов из возможных 500 000 долларов. Когда мне пришлось справиться с роли лидера, искусственный интеллект антропного результата достиг 44,9%, что соответствует 400 000 долл. США из одного миллиона возможных.

Исследование уделяет особое внимание задачам категории Diamond-большинства сложных проектов, для которых даже опытные эксперты GitHub проводят в среднем 26 дней. Во время процесса у всех было много вопросов — тема комментариев обычно увеличивалась до 50 сообщений. Конечно, здесь Claude 3.5 добился большего успеха, хотя точный показатель успеха в этой категории был намного ниже. Чтобы получить наиболее честные результаты, модели были выполнены в изолированной среде Docker без доступа к внешним ресурсам-не было готовых ответов.

Открытое исследование (который, кстати, называется SWE-LACER) замечательно, потому что впервые II был протестирован на реальных коммерческих продуктах, используемых миллионами людей. Ранее тесты проводились только на специализированных хранилищах источников — такие задачи, которые интересны для узкого круга разработчиков.

Кстати, во время эксперимента навыки самих крупных лингвистических моделей увеличились. Например, GPT-4O, который в августе 2024 года выполнил только 1/3 задач в своей новой версии (O3) удалось успешно решить 72% задач. OpenAI считает, что когда нейронные сети учатся программировать на уровне человека, это сделает высококачественные разработки более доступными и ускоряет технологический прогресс. В то же время компания понимает риски для рынка труда, особенно для начинающих.

Несмотря на непрерывное обучение, оказалось, что интеллектуальные алгоритмы все еще далеки от замены реальных программистов.

Даже самые сложные системы не могли выполнять большинство задач: они часто совершали ошибки в сложной бизнес-логике, не могли эффективно интегрировать различные технологии и испытывали трудности с устранением нетривиальных проблем. Тем не менее, SWE-Lancer Survey обнаружил новый способ оценки ИИ через призму реальной экономики: теперь можно точно сказать, какая часть работы реальных специалистов легче автоматизировать и сколько стоит.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх