OpenAI представляет изображения ChatGPT 2.0: революцию в создании текста на изображении (видео)

Представлен OpenAI Изображения ChatGPT 2.0модель генерации изображений, которая впервые среди основных видов искусственного интеллекта правильно отображает текст на изображениях.. Если два года назад модели распространения ИИ не могли создать меню мексиканского ресторана без выдуманных слов, таких как «енчуита» и «буррто», новая модель создает изображения с удобными подписями без редактирования.

Уже в 2024 году диффузные модели ИИ систематически искажали надписи. По словам Асмелаша Теки Хадгу, основателя и генерального директора Lesan AI, модели реконструируют изображение по шуму и изучают закономерности, покрывающие большую часть пикселей, при этом текст занимает небольшую часть площади.

С тех пор исследователи пробовали альтернативные подходы, в частности, модели авторегрессии, которые предсказывают содержание изображений и работают аналогично большим лингвистическим моделям (LLM).

OpenAI не раскрывает, какая архитектура лежит в основе изображений 2.0. В компании пояснили лишь, что новинка способна «рассуждать» — искать информацию в Интернете, генерировать несколько изображений по запросу и проверять результаты. Благодаря этому Images 2.0 создает маркетинговые материалы разных размеров и даже комиксы.. Модель AI также улучшила обработку нелатинских шрифтов — японского, корейского, хинди и бенгальского. Однако сведения об изображениях 2.0 ограничены декабрем 2025 года, что может повлиять на точность генерации запросов недавних событий.

«Images 2.0 выводит детализацию и точность генерации на беспрецедентный уровень. Модель способна рассмотреть сложную композицию и воплотить ее в жизнь: следовать инструкциям, сохранять определенные детали и визуализировать элементы, на которых обычно спотыкаются генераторы — мелкий текст, значки, элементы интерфейса, богатые композиции и тонкие стилистические ограничения — и все это в разрешении до 2K»,

Об этом говорится в сообщении компании.

Создание этого занимает больше времени, чем обычный текстовый запрос в ChatGPT, но даже мультипанельный комикс занимает несколько минут.

Изображения 2.0 будут доступны всем пользователям ChatGPT и Codex. Платные подписчики смогут создавать более сложные изображения. OpenAI также откроет API gpt-image-2 — цена будет зависеть от качества и разрешения выходных изображений.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх