LLM развиваются с угрожающей скоростью, и в зависимости от вашей позиции это либо апокалиптическое, либо фантастическое явление. Сегодня мы говорим об агентах ИИ, но в конечном итоге каждый агент ограничен моделью, в которой он работает. Таким образом, независимо от того, какую конфигурацию вы используете, очевидно, важно, какая модель будет использоваться в конечном итоге.
Я много слышал о Клоде, как и вы, наверное. Клод кажется наиболее подходящим LLM для людей, которые действительно хотят чем-то заниматься, а не превращать фотографии в мультфильмы или создавать чат-боты. Но я подписался на ChatGPT, когда он только появился, и так и не набрался смелости уйти. Кроме того, у меня есть подписка Google One, входящая в состав Gemini. Плата за третью степень магистра казалась… экстравагантной.
Но вот это случилось. Вокруг Клода было так много шума, что я решил наконец попробовать. И какой лучший способ противопоставить всех этих LLM друг другу, чем симулятор Солнечной системы?
Создадим симулятор солнечной системы
Он тестирует гораздо больше, чем исходный код.
Мне было интересно придумать множество различных идей для подходящего эталона LLM. Поскольку это большие языковые модели, лучший способ их протестировать — заставить их использовать какой-нибудь язык, а ни один язык не документирован более тщательно, чем язык программирования. Естественно, сначала я рассматривал обычных подозреваемых: конструктор веб-сайтов, клон Flappy Bird, возможно, симулятор движения. Но мне хотелось чего-то с большей физикой, большим количеством правил и желательно чего-то такого, чего раньше не было. я остановился на полноценный исследователь Солнечной системы.
Трехмерный симулятор Солнечной системы заставил бы LLM одновременно заниматься физикой, графикой, логикой моделирования, UX и архитектурой. Проект будет основан на Интернете, будет содержаться в одном файле, и я не буду устанавливать стек. У меня возникло искушение использовать Babylon.js вместо Three.js, просто чтобы сделать задачу более интересной, но выбор стека — это часть проблемы. Я также добавил еще одно правило: никаких повторов, никаких правок и исправлений. Первый результат будет окончательным.
Ниже приведено задание, которое я использовал для всех трех. Я старался сделать его максимально живописным и избегал жестких технических ограничений. Наконечник почти полностью фокусируется на форме и функции. Кроме того, я запустил все три в их основных интерфейсах веб-чата, а не в их настольных приложениях или инструментах для кодирования.
Создайте обозреватель солнечной системы на основе браузера, который запускается локально в веб-браузере и выглядит как настоящая интерактивная симуляция, а не демонстрационная игрушка. Он должен точно отображать структуру и движение Солнечной системы с правдоподобными размерами планет, поведением орбит, освещенностью, вращением и пространственным масштабом, оставаясь при этом удобным для пользователя и визуально понятным. Ощущение должно быть реалистичным, отточенным и эстетически надежным, с плавной навигацией, интуитивно понятным масштабированием и движением камеры, а также рендерингом, который делает пространство обширным и детализированным. Конечный результат должен быть полностью функциональным, визуально впечатляющим, научно обоснованным и способным работать непосредственно в браузере, не требуя серверной части или внешних служб.
Примечание: Все три результата я разместил на Vercel, так что вы можете попробовать их сами.
Близнецы были быстры и выглядели почти впечатляюще.
Блеск исчез, как только я приблизился.
Gemini 3 Thinking финишировал первым. Кроме того, это была единственная модель, для которой не имело смысла отображать результат в интерфейсе в стиле Canvas, но это незначительная проблема. Я взял код и запустил его.
Gemini выбрала Three.js, и издалека это выглядело хорошо. Планеты вращались вокруг Солнца, освещение казалось реальным, а тени были реалистичными. На одном из скриншотов видно, как планеты затмевают друг друга, что является приятным штрихом и сразу делает все творение более существенным. По крайней мере, это можно использовать в качестве действительно хороших обоев для программы Wallpaper Engine.
Трещины появляются при увеличении изображения. В подсказке на экране говорится: «Нажмите на планеты, чтобы сфокусироваться», но щелчок на самом деле ничего не делает. А нажатие на движущуюся планету расстраивает больше, чем следовало бы. Текстуры планет были еще одним слабым местом — упрощенные градиенты без реальной детализации поверхности и невозможность определить, вращается ли планета вообще. Выбор планеты из меню создавал красивый эффект погони камерой, но имел ошибку: как только вы зафиксировались на ней, вы не могли вернуться назад. Чтобы это исправить, необходимо обновить страницу. Интересная функция, плохое исполнение.
ChatGPT долго и упорно думает
И тогда он ошибся.
ChatGPT финишировал последним. Я использовал ChatGPT 5.4 Thinking, и он долго думает, прежде чем генерировать код. К сожалению, результат с самого начала был фатально плохим. Все планеты были выстроены в одном положении с Солнцем – ни орбит, ни расстояния, ни вращения, просто куча сфер, перекрывающихся вначале.
Мы решили не исправлять и не повторять попытку, поэтому оцениваем именно этот результат. Именно в этом суть теста.
Интересно, что я попросил ChatGPT просмотреть собственный код и выявить проблему. Он перечислил с десяток потенциальных проблем и совершенно упустил реальную. При ближайшем рассмотрении вручную причина оказалась простой и почти человеческой: симуляция хранила орбитальные расстояния в а.е. (астрономических единицах), но рендерер ожидал километров. Поэтому, когда код должен был поместить Меркурий на расстоянии 0,5 а.е. от Солнца, вместо этого он поместил его на расстоянии 0,5 км – фактически внутри него.
Стоит отметить: ChatGPT также полностью проигнорировал Three.js и использует двухмерное представление сверху вниз. В интерфейсе было больше элементов управления, чем в Gemini, и он выглядел относительно отточенным, но все это не имеет значения, когда сама симуляция не работает.
Клод на совершенно другом уровне.
Он был единственным, кто создал продукт, который выглядел законченным..
Клод финишировал после Gemini, но задолго до ChatGPT. Я использовал Claude Sonnet 4.6, последнюю модель с бесплатным уровнем, поскольку у меня нет подписки. Разница в качестве продукции Клода и других была огромной. Буквально световые годы отсюда.
Как и Gemini, он выбрал Three.js, но реализовал его гораздо глубже. Первое, что бросалось в глаза, это то, что сюда входил пояс астероидов. Близнецы даже не выполнили работу. Плюс еще были текстуры! Планеты Клода действительно были похожи на планеты. Земля выглядела узнаваемо. У Юпитера было Большое Красное Пятно. Сатурн, несмотря на ограничения HTML-файла, выглядел на удивление близко к реальному.
Последняя часть заслуживает внимания. Это все еще был отдельный файл. Обычно вы ожидаете, что соответствующие карты текстур, а также внешние изображения будут загружены отдельно. Их не было. Клод процедурно сгенерировал все эти текстуры в JavaScript, внутри самого файла, и проделал отличную работу.
Планеты были расположены более реалистично, вращались с разумной относительной скоростью, а их орбиты вокруг Солнца также были намного ближе к реальности. Есть кнопка для управления скоростью со значением по умолчанию один день в секунду, а также переключатели орбитальных траекторий, пояса астероидов и других визуальных эффектов.
Клод просто пошел намного дальше остальных.
Графика стала лучше, пользовательский интерфейс — лучше, и все это выглядело более отточенным как по форме, так и по функциям. Самое главное, это было похоже на настоящий продукт, а не на интересный первый вариант. И это сработало всего с одной подсказкой и с первого раза.
Клод — степень магистра права для людей, которые действительно хотят работать.
Этот небольшой эксперимент обошелся мне в 20 долларов, и теперь я почти наверняка подпишусь на Клода. Я могу в конечном итоге отменить подписку на ChatGPT, чтобы сбалансировать ее. Еще более неловко, что из трех я уже плачу за два. Победитель выиграл, воспользовавшись бесплатной версией. По крайней мере, в этом тесте отказ от оплаты Claude оказался более продуктивным, чем оплата Gemini и ChatGPT.
У Клода нет режима видеочата. Он не пытается быть вашим лучшим другом и не ставит во главу угла то, чтобы вы чувствовали себя хорошо. Он показывает, для кого создан продукт и что на самом деле ценит компания.
На первый взгляд все LLM похожи. Но стоит задаться вопросом, для чего на самом деле оптимизирована модель. Он создан для того, чтобы произвести на вас впечатление во время демо-версий? Чтобы вы были заняты? Чувствовать себя человеком? Или это для того, чтобы выполнить работу?
Клод явно попадает в последнюю категорию.

