Оригинал на Amir M. Bohlooli
OpenAI только что выпустил чудовищное обновление для создания изображений через CHATGPT, и это один из тех моментов, когда вы моргаете, посмотрите еще раз и начинаете сомневаться в реальности.
Я не буду тратить ваше время на числа, размеры моделей или сколько миллиардов часов графический процессор поглощает новую модель. Я просто покажу вам, что это может и как это обрабатывает старый Dall-E.
Руки и пальцы
Близкий человек человека, который играет мою незначительную аккорду на гитаре, с пальцами, сжимающими струны, с низкой глубиной резкости.
Поколение изображений искусственного интеллекта взорвало наши умы, когда они впервые стали массивными. А потом … мы посмотрели ближе. Отличительной чертой изображения, созданного с искусственным интеллектом, является странная анатомия рук и пальцев. Итак, что может быть лучше, чем просить модели, чем просить их изобразить гитарный аккорд?
Чтобы сохранить лучшее для конца, я сначала установил эту задачу в оригинальную модель DALL-E, а затем новый генератор изображений, интегрированный в CHATGPT 4O.
Выше вы можете увидеть, что создал Dall-e. Несмотря на недостатки Далл-э, здесь он хорошо справляется с пальцами и общей анатомией. Но сам аккорд … не так много. Рука расположена слишком высоко на сливе, чтобы сыграть мою несовершеннолетнюю. Если вы увеличите немного масштаба, вы заметите, что на гитаре более семи строк. Расстояние между струнами также слишком велика.
Имея это в виду, давайте перейдем к Chatgpt 4O.
Я мог бы сказать вам, что я шучу и что это на самом деле старая фотография того времени, когда я играл на гитаре. Chatgpt 4o действительно так хорош. Шесть строк равномерно расположены, а аккорд на самом деле мой несовершеннолетний. Я впечатлен.
Исторические фигуры
Альберт Эйнштейн ест мороженое в Центральном парке, одетый в простую рубашку и ремни.
Теперь, после того, как мы испачкали наши руки (и пальцы), давайте повеселимся с некоторыми лицами. Я решил попробовать исторические фигуры, поскольку они не будут обижены, и было бы весело видеть их в современной обстановке.
РазочарованиеЧестно говоря, Далл-и предупредил меня, что он не сможет использовать сам Эйнштейн и вместо этого будет использовать кого-то, кто «очень похож на». Одной из классических особенностей Dall-E является его мультфильм и в то же время реалистичный стиль, который проявляется здесь с полной силой.
На фоне Сан -Ремо предполагается, что это центральный парк, но это единственная находка в этом случае. Мы продолжаем в чате 4o.
Если бы я положил на него черно -белый фильтр, я бы убедил вас, что это настоящая винтажная фотография. Крем на конусе выглядит правильно сливочным, Альберт имеет свое характерное беззаботное радиацию, и Сан -Ремо все еще стоит там, поднятый высоко. Все в порядке. Chatgpt 4o сделал просто великолепноС
Вымышленные фигуры
Фигура, похожая на ситхию, который называет такси на Джордж -сквер в Глазго, на фоне световых дождей и светофоров.
Мы уже видели, что Chatgpt может нарисовать исторические фигуры довольно хорошо. Поскольку лица и люди по -прежнему являются одним из лучших способов подчеркнуть искусственный интеллект, давайте попробуем еще несколько.
Я выбрал «похожий», чтобы сделать бота, помогая мне, не намекая на меня за авторские права. Результат Далл-Э хорош. Фигура действительно напоминает SIT, а другие элементы более или менее точны.
В нем нет ничего явно мультяшного, но это просто не кажется реальным. Вы хотите быть настоящим? Посмотрите, что Catgpt 4o выполнила ту же задачу:
Мне нравится атмосфера — освещение, дождь, темное присутствие лорда Ситхов. Все есть. Единственная проблема заключается в том, что наш Темный Лорд стоит на улице и называет такси, сталкиваясь с … тротуаром. А знак такси говорит «налогов».
Давайте перейдем от художественной литературы будущего к исторической фантастике. Что -то вроде:
Герой, похожий на Ривию Геральт, которая делает покупки еды в современном супермаркете, подталкивает коляску и хмуриться на консервированных продуктах.
Сырой, белый человек с шрамом на лице, похожий на фэнтезийный охотник на монстров в современном супермаркете
Это не плохо. Изображение по -прежнему несет эту синтетическую мультипликационную атмосферу, а текст на зерновых коробках является полной чепухой, как и ожидалось.
CHATGPT 4O изначально отказался запрашивать из -за авторских прав, но это работало после замены «аналогично» с «напоминанием». Просто посмотри:
У меня нет слов. Как и большинство людей, интерпретация Геральта от CHATGPT, как правило, просто Генри Кавил, а не версия видеоигр — но он устал. Гримаса на месте, а атмосфера естественна.
Это может пойти на фото из набора странной рекламы кроссовера. И да, я прочитал книги о «Ведьмаке» до появления сериала.
Анимированные персонажи
Пиратский капитан в стиле мультфильма с длинным красным пальто и киберневой рукой, смеясь на палубе летательного корабля. Прозрачный фон.
Поколение изображений Openai не ограничивается реализмом. Хотя Dall-e всегда имеет тенденцию быть слегка в воздухе, независимо от того, что вы ему обслуживаете, я решил поместить обе модели в полностью анимированный режим.
На самом деле, Dall-E выполняет эту задачу хорошо, и даже понимает запрос на прозрачный фон. В некотором смысле. Классическая серо-белая шахматная модель была получена, что обычно означает прозрачный … но здесь она встроена в изображение. Так что это совсем не прозрачно.
Кроме того, по иронии судьбы, биологическая рука нашего пирата искусственного интеллекта имеет четыре пальца, а кибернетик — пять. Может, он хромировал не ту руку?
Версия Chatgpt 4O более знаковая и целенаправленная. Стиль раскраски отличается от того, лучше ли он или нет, он субъективен, но кажется, что художник хотел нарисовать его таким образом.
Кроме того, фон на самом деле прозрачен. Вы можете положить его на T -Fish, распечатать или даже превратить наклейку для WhatsApp.
Зеркала и отражения
Современная раковина в ванной с зубной щеткой и бритвой на плите, которую можно увидеть в зеркале и в реальном мире — освещение мягкое и равномерное.
Зеркала отражаются, и отражения нуждаются в пространственной логике, чтобы выглядеть естественной. Я сделал этот вызов, что, как я знал, это затруднит для Далл-э.
Как и ожидалось. Что -то пытается отразить кран в зеркале, но это слишком долго. Зубная щетка левитирует внутри раковины и не отражает никакого отражения.
Более новая модель гораздо лучше обрабатывается, давая ощущение реальности изображению, как настоящая фотография. Отражение крана немного искажено, но это приемлемо. Тогда есть зубная щетка, которая имеет отражение, но не существует в физическом мире.
Здесь нет категориального победителяS Результаты искусственного интеллекта противоречивы, поэтому я дал оба еще одного шанса с чем -то более амбициозным:
Женщина стоит перед зеркалом в полном объеме в спальне, охваченной солнцем, ее одежда и осанка отражаются точно, с четко видимым отражением окна позади нее.
… Я даже не хочу его анализировать. Люди, если вы хотите сделать Dall-e плохо, просто бросьте слово «зеркало» в свой запрос. Мы продолжаем.
Как и ожидалось, версия Chatgpt 4O выглядит гораздо более реалистичной, но может быть, на этот раз она немного сюрреалистична? Поза женщины и одежда отражаются, но лишь частично, например, 3D -эффект Photoshop. Уголы отражения также не подходят. ИИ все еще не может справиться с пространственной логикой.
Машины и улицы
Ford GT 2006 года и Peugeot 206 из красного светофора Уолл -стрит, Нью -Йорк, в полдень.
Я энтузиаст автомобиля. Когда в первый раз появились генераторы изображений искусственного интеллекта, одна из первых вещей, которые я попробовал, — это сделать изображения автомобилей. Результаты были не хорошими тогда, но после того, как новая модель вышла, мне пришлось попробовать еще раз.
Опять же, Далл-э появляется со своей все более раздражающей анимированной эстетикой. Peugeot находится на тротуаре, светофоры, которые я просил, обращаются в здания, а количество знаков — полная глупость.
Результаты CHATGPT 4O значительно лучше. Автомобили правильно изображены — даже крышка колеса Peugeot является точной и соответствует эре. Этот тип деталей не случайный. Но все становится еще лучше:
На самом деле, я мог бы использовать эту фотографию в качестве обоев на моем телефоне. Освещение, композиция, отражения — все в порядке. За исключением странной пустоты на улице, это можно считать настоящей фотографией.
Тексты и письма
Рукописное письмо на стариную газету, расположенную рядом с ручкой и бутылкой чернил.
Наконец, мы направляемся к ахиллесовой пяте каждого генератора изображений. Большинству искусственного генерации изображений интеллекта трудно справиться с текстом. Мы уже видели достаточно Dall-E в предыдущих примерах, чтобы узнать, что я имею в виду.
Чтобы сделать его более интересным-и более последовательно-я добавил, что письмо должно содержать текст речи короля Тарнаса Артасу из Warcraft III.
Далл-и делай то, что он может лучше всего с текстом: превратил его в размытую, непостижимую рвоту. Ему удается разобраться с некоторыми словами, но окупается атмосфера — ручка и чернила выглядят солидно.
CHATGPT 4O достигает этого — каждое слово написано чистым курсивом шрифта. Идеальные буквы. По сравнению с Dall-E, это огромный прыжок вперед. Я снимаю вашу шляпу, Openai.
Поколение изображений с помощью искусственного интеллекта прошло долгий путь — и это видно. CHATGPT 4O — первая модель, которая действительно понимает освещение, текстуру и контекст.
На этом этапе единственный вопрос, который остается: насколько сильны защитные механизмы Chatgpt? Я легко пережил ограничения авторских прав. Сколько времени потребуется, прежде чем кто -то сломает CHATGPT и начнет генерировать любой контент, который хочет использовать эту абсурдно эффективную модель?