Google пытается произвести фурор с помощью Gemini – своего флагманского набора моделей, приложений и сервисов генеративного ИИ. Но что такое Gemini? Как его использовать? И как он соотносится с другими инструментами генеративного ИИ, такими как ChatGPT от OpenAI, Llama от Meta и Copilot от Microsoft? Чтобы вы в курсе последних разработок Google, мы составили это руководство, которое, скорее всего, потребует обновлений в будущем по мере выхода новых моделей Gemini.
Что такое Google Gemini?
Gemini — это давно обещанное семейство моделей генеративного ИИ следующего поколения от Google. Разработанное исследовательскими лабораториями ИИ DeepMind и Google Research бы представлено в четырех вариантах:
- Gemini Ultra.
- Gemini Pro.
- Gemini Flash — более быстрая, «упрощенная» версия Pro.
- Gemini Nano в качестве двух небольших моделей: Nano-1 и более производительной Nano-2, которая предназначена для работы в автономном режиме.
Все модели Gemini были обучены быть изначально мультимодальными. То есть, они способны работать и анализировать не только текст. Google утверждает, что они были предварительно обучены и настроены на различных общедоступных, фирменных и лицензированных аудио, изображениях и видео;, а также на наборе кодовых баз и тексте на разных языках. Это отличает Gemini от таких моделей, как LaMDA от Google, которая была обучена исключительно на текстовых данных. LaMDA не может понимать или генерировать что-либо, выходящее за рамки текста (например, эссе, электронные письма и т. д.), но это не обязательно относится к моделям Gemini.
Отметим, что этика и законность обучения моделей на публичных данных, в некоторых случаях без ведома или согласия владельцев данных, неясны. У Google есть политика возмещения ущерба ИИ, чтобы защитить определенных клиентов Google Cloud от судебных исков, если они с ними столкнутся, но эта политика содержит исключения. Действуйте осторожно, особенно если вы собираетесь использовать Gemini в коммерческих целях.
В чем разница между приложениями и моделями Gemini?
Gemini — это отдельное приложение, которое отличается от веб-приложений Gemini и мобильных устройств (ранее Bard). Приложения Gemini — это клиенты, которые подключаются к различным моделям Gemini и накладывают поверх интерфейс, подобный чат-боту. Все сделано по аналогу с ChatGPT и семейством приложений Claude от Anthropic.
Gemini в сети вы можете найти здесь. На Android приложение Gemini заменяет существующее приложение Google Assistant. А на iOS приложения Google и Google Search служат клиентами Gemini этой платформы.
На Android также недавно стало возможным вызывать наложение Gemini поверх любого приложения, чтобы задавать вопросы о том, что находится на экране (например, видео YouTube). Просто нажмите и удерживайте кнопку питания поддерживаемого смартфона или скажите «Привет, Google», после чего вы увидите всплывающее наложение.
Приложения Gemini могут принимать изображения, а также голосовые команды и текст. Также они работают с файлами, такими как PDF и вскоре смогут работать с видео, загруженными или импортированными из Google Диска. Дополнительно приложения могут генерировать изображения. Как и следовало ожидать, разговоры с приложениями Gemini на мобильных устройствах переносятся в браузерный Gemini и наоборот. Это работает, если вы вошли в одну и ту же учетную запись Google на разных устройствах.
Gemini Advanced
Приложения Gemini — не единственный способ привлечения помощи моделей Gemini для выполнения различных задач. Медленно, но верно функции Gemini проникают в основные приложения и сервисы Google, такие как Gmail и Google Docs.
Чтобы воспользоваться большинством из них, вам понадобится Google One AI Premium Plan. Технически являясь частью Google One, AI Premium Plan стоит 20 долларов и обеспечивает доступ к Gemini в приложениях Google Workspace, таких как Docs, Slides, Sheets и Meet. Он также включает то, что Google называет Gemini Advanced, что переносит более сложные модели компании в приложения Gemini.
Пользователи Gemini Advanced также получают дополнительные возможности как в браузерной версии, так и в приложении. Например, это может быть приоритетный доступ к новым функциям, возможность запускать и редактировать код Python непосредственно в Gemini и большее «окно контекста». Gemini Advanced может запомнить содержание и рассуждать, так как в его лексиконе примерно 750 000 слов в разговоре или 1500 страниц документов. Это по сравнению с 24 000 словами или 48 страницами, которые может обработать бесплатное приложение Gemini.
Еще одним эксклюзивом Gemini Advanced является планирование поездок в Google Search, которое создает индивидуальные маршруты путешествий из подсказок. Принимая во внимание такие вещи, как время полета (из писем в почтовом ящике Gmail пользователя), предпочтения в еде и информацию о местных достопримечательностях (из данных Google Search и Maps), а также расстояния между этими достопримечательностями, Gemini сгенерирует маршрут, который автоматически обновляется для отражения любых изменений.
Gemini для сервисов Google также доступен корпоративным клиентам в рамках двух планов: Gemini Business (надстройка для Google Workspace) и Gemini Enterprise. Gemini Business стоит всего 20 долларов за пользователя в месяц, а Gemini Enterprise, который добавляет ведение заметок на встречах и перевод субтитров, а также классификацию и маркировку документов — стоит от 30 долларов за пользователя в месяц. Оба плана требуют ежегодной подписки.
Gemini в основных продуктах Google
В Gmail Gemini находится на боковой панели, где можно писать электронные письма и резюмировать цепочки сообщений. Вы найдете ту же панель в Docs, где она помогает вам писать и улучшать ваш контент и проводить мозговой штурм новых идей. Gemini в Slides генерирует слайды и пользовательские изображения. А Gemini в Google Sheets отслеживает и организует данные, создавая таблицы и формулы.
Gemini также распространяется на Drive, где он может суммировать файлы и предоставлять краткие факты о проекте. В Meet, тем временем, Gemini переводит субтитры на дополнительные языки.
Недавно Gemini появился в браузере Chrome в виде инструмента для написания текстов на основе искусственного интеллекта. Вы можете использовать его, чтобы написать что-то совершенно новое или переписать существующий текст. Google утверждает, что он будет учитывать веб-страницу, на которой вы находитесь, чтобы давать релевантные рекомендации.
В других инструментах вы также найдете намеки на Gemini. Например, он есть в продуктах Google для работы с базами данных, инструментах облачной безопасности и платформах разработки приложений, включая Firebase и Project IDX. Также ИИ есть в таких приложениях, как Google Photos, где Gemini обрабатывает поисковые запросы на естественном языке. Есть и в YouTube, где он помогает проводить мозговой штурм при создании идей для видео. Даже в помощнике для создания заметок NotebookLM он тоже есть. В общем, Google засунул его везде, где только можно.
Code Assist (ранее Duet AI for Developers), известный как набор инструментов Google для помощи с использованием ИИ для завершения и генерации кода, сегодня уже перекладывает тяжелую вычислительную работу на Gemini. То же самое касается и продуктов безопасности Google, основанных на Gemini. речь идет о Gemini in Threat Intelligence, которые могут анализировать большие части потенциально вредоносного кода и позволяют пользователям выполнять поиск на естественном языке для текущих угроз или индикаторов компрометации.
Расширения Gemini
Пользователи Gemini Advanced могут создавать свои так называемые Gems – пользовательские чат-боты на основе моделей Gemini. Gems можно генерировать из описаний на естественном языке, например: «Ты мой тренер по бегу. Предоставь мне ежедневный план бега». При этом сгенерированными результатами своего Gems можно делиться с окружением или пользовать конфиденциально.
Gems доступны на ПК и мобильных устройствах в 150 странах и на большинстве языков. В конечном итоге они смогут использовать расширенный набор интеграций с сервисами Google, включая Google Calendar, Tasks, Keep и YouTube Music, для выполнения пользовательских задач.
Говоря об интеграции, приложения Gemini в веб-версии и на мобильных устройствах могут подключаться к сервисам Google через то, что Google называет «расширениями Gemini». Сегодня Gemini интегрируется с Google Drive, Gmail и YouTube, чтобы отвечать на разные запросы пользователей. После небольшой доработки в будущем Gemini сможет выполнять дополнительные действия с Google Calendar, Keep, Tasks, YouTube Music и Utilities — эксклюзивными приложениями Android, которые управляют такими функциями устройства, как таймеры и будильники, элементы управления мультимедиа, фонарик, громкость, Wi-Fi, Bluetooth и так далее.
Голосовые чаты Gemini Live
Новая разработка под названием Gemini Live вышла эксклюзивно для подписчиков Gemini Advanced. Она позволяет пользователям вести «глубокие» голосовые чаты с Gemini. Gemini Live доступен в приложениях Gemini на мобильных устройствах и Pixel Buds Pro 2, где он доступен даже при заблокированном телефоне.
При включении Gemini Live вы можете прерывать Gemini, пока чат-бот говорит (одним из нескольких новых голосов), чтобы задать уточняющий вопрос, и он будет адаптироваться к вашим речевым моделям в реальном времени. А чуть позже разработчики обещают, что Gemini сможет видеть и реагировать на ваше окружение. Скорее всего окружение он будет просматривать с помощью фотографий или видео, снятых камерами смартфонов.
Функция Live также разработана как своего рода виртуальный тренер, помогающий вам организовывать мероприятия, проводить мозговой штурм идей и так далее. Например, Live может подсказать, какие навыки следует подчеркнуть на предстоящем собеседовании при приеме на работу или стажировке, а также может дать советы по публичным выступлениям.
Генерация изображений с помощью Imagen 3
Пользователи Gemini могут создавать художественные работы и изображения, используя встроенную модель Imagen 3 от Google. Разработчик утверждает, что Imagen 3 может точнее понимать текстовые подсказки, которые он переводит в изображения, по сравнению со своим предшественником Imagen 2, и является более «креативным и подробным» в своих генерациях. Кроме этого, модель производит меньше артефактов и визуальных ошибок (по крайней мере, по данным Google), и является лучшей моделью Imagen для рендеринга текста.
Еще в феврале 2024 года Google был вынужден приостановить способность Gemini генерировать изображения людей после того, как пользователи пожаловались на анатомические неточности. Но уже в августе компания снова ввела генерацию людей для определенных пользователей, подписавшихся на один из платных планов Gemini от Google в рамках пилотной программы.
Gemini для подростков
В июне 2024 года Google представила ориентированную на подростков платформу Gemini, позволяющую учащимся регистрироваться через свои школьные учетные записи Google Workspace for Education. Ориентированное на подростков приложение Gemini имеет «дополнительные политики и гарантии», включая индивидуальный процесс адаптации и «руководство по грамотности в области ИИ», чтобы (как его называет Google) «помочь подросткам использовать ИИ ответственно». В остальном оно почти идентично стандартному приложению Gemini, вплоть до функции «двойной проверки», которая просматривает сеть, чтобы убедиться в точности ответов Gemini.
Gemini и умные домашние устройства
Все больше устройств, произведенных Google, используют Gemini для расширения функциональных возможностей: от Google TV Streamer до Pixel 9 и 9 Pro и новейшего обучаемого термостата Nest. В Google TV Streamer Gemini использует ваши предпочтения для подбора контента для подписок, а также для составления обзоров и даже целых сезонов телепередач.
В новейшем термостате Nest, а также в колонках, камерах и интеллектуальных дисплеях Nest, Gemini вскоре расширит разговорные и аналитические возможности Google Assistant.
Подписчики плана Nest Aware от Google в этом году получат предварительный просмотр новых возможностей Gemini, таких как описания ИИ для кадров с камер Nest, поиск видео на естественном языке и рекомендуемые автоматизации. Камеры Nest будут понимать, что происходит в видеопотоках в реальном времени, в то время как сопутствующее приложение Google Home будет показывать видео и создавать автоматизации устройств по описанию.
Также в этом году Google Assistant получит несколько обновлений на устройствах под брендом Nest и других умных домашних устройствах, чтобы сделать разговоры более естественными.
Что умеют модели Gemini?
Поскольку модели Gemini являются мультимодальными, они могут выполнять ряд мультимодальных задач, от транскрибирования речи до субтитров изображений и видео в реальном времени. Многие из этих возможностей достигли стадии продукта (как упоминалось в предыдущем разделе), и Google обещает выдать функционала еще больше в не столь отдаленном будущем.
Конечно, немного сложно поверить компании на слово. Google серьезно недоработала с первоначальным запуском Bard. Совсем недавно разработчики пафосно хвастались возможностями Gemini, которые можно считать амбициозными, если бы не одно больше НО – презентовали они это все виртуально. То есть, готового продукта еще нет, но мы очень крутые, поверьте нам.
Кроме этого, Google не предлагает решения некоторых основных проблем с технологией генеративного ИИ. Речь про закодированные предубеждения и склонность к выдумыванию, то есть галлюцинациям. У конкурентов с этим тоже есть проблемы, но это следует иметь в виду, рассматривая возможность использования или оплаты Gemini.
Если предположить, что последние заявления Google верны, то давайте обобщим, что могут делать различные уровни Gemini сейчас и что они смогут делать, когда раскроют весь свой потенциал.
Функционал Gemini Ultra
Google утверждает, что Gemini Ultra благодаря своей мультимодальности может использоваться для помощи в выполнении домашних заданий по физике, пошагового решения задач на рабочем листе и указания на возможные ошибки в уже заполненных ответах. Эту версию также можно применять для таких задач, как выявление нестыковок в научных статьях. Модель может извлекать информацию из нескольких статей, например, и обновлять диаграмму из одной, генерируя формулы, необходимые для повторного создания диаграммы с более актуальными данными.
Gemini Ultra технически поддерживает генерацию изображений. Но эта возможность пока не вошла в рабочую версию модели. Этого функционала пока нет, возможно, потому, что механизм сложнее, чем то, как приложения вроде ChatGPT генерируют изображения. Вместо того, чтобы отправлять запросы генератору изображений (например, DALL-E 3 в случае ChatGPT), Gemini выводит изображения «в исходном виде», без промежуточного шага.
Ultra доступен в виде API через Vertex AI – полностью управляемую платформу разработки искусственного интеллекта от Google. Также доступен и через AI Studio – веб-инструмент Google для разработчиков приложений и платформ.
Возможности Gemini Pro
Google утверждает, что Gemini Pro — это ощутимое улучшение по сравнению с LaMDA в своих возможностях рассуждения, планирования и понимания. Последняя версия Gemini 1.5 Pro, которая обеспечивает работу приложений Gemini для подписчиков Gemini Advanced, в некоторых областях превосходит даже производительность Ultra.
Gemini 1.5 Pro улучшен в ряде областей по сравнению со своим предшественником Gemini 1.0 Pro. Возможно, наиболее это заметно в объеме данных, которые он может обрабатывать. Gemini 1.5 Pro может воспринимать до 1,4 миллиона слов, два часа видео или 22 часа аудио и может рассуждать или отвечать на вопросы об этих данных.
Gemini 1.5 Pro стал общедоступным в Vertex AI и AI Studio в июне 2024 года вместе с функцией, называемой выполнением кода, которая направлена на сокращение количества ошибок в коде, генерируемом моделью. Это происходит путем итеративного уточнения этого кода на нескольких этапах. Выполнение кода также поддерживает Gemini Flash.
В Vertex AI разработчики могут настраивать Gemini Pro под конкретные контексты и варианты использования с помощью процесса тонкой настройки. Например, Pro вместе с другими моделями Gemini можно поручить использовать данные от сторонних поставщиков, таких как Moody’s, Thomson Reuters, ZoomInfo и MSCI. Или можно скормить исходную информацию из корпоративных наборов данных или Google Search вместо своего более широкого банка знаний. Gemini Pro также можно подключить к внешним сторонним API для выполнения определенных действий, таких как автоматизация рабочего процесса бэк-офиса.
AI Studio предлагает шаблоны для создания структурированных чат-подсказок с Pro. Разработчики могут контролировать творческий диапазон модели и предоставлять примеры для указания тона и стиля, а также настраивать параметры безопасности Pro.
Vertex AI Agent Builder позволяет людям создавать «агентов» на базе Gemini в Vertex AI. Например, компания может создать агента, который анализирует предыдущие маркетинговые кампании, чтобы понять стиль бренда, а затем применить эти знания для генерации новых идей, соответствующих этому стилю.
Gemini Flash
Для менее требовательных приложений есть Gemini Flash. Новейшая версия — 1.5 Flash. Пользователи приложения Gemini, не подписавшиеся на Gemini Advanced, получают доступ именно к ней.
Версия Flash — небольшое, но эффективное ответвление Gemini Pro, созданное для узких, высокочастотных генеративных рабочих нагрузок ИИ. При этом эта версия мультимодальная, как Gemini Pro. То есть она может анализировать аудио, видео, изображения и текст, но может генерировать только текст. Google утверждает, что Flash особенно хорошо подходит для таких задач, как реферирование и чат-приложения, а также субтитры к изображениям и видео и извлечение данных из длинных документов и таблиц.
Разработчики, использующие Flash и Pro, могут опционально использовать кэширование контекста, что позволяет им хранить большие объемы информации в кэше, к которому модели Gemini могут быстро и относительно дешево получить доступ. Однако кэширование контекста является дополнительной платой сверх других сборов за использование модели Gemini.
Gemini Nano
Это гораздо меньшая версия моделей Gemini Pro и Ultra, и она достаточно эффективна, чтобы работать непосредственно на устройствах, а не отправлять задачу на сервер. Пока что Nano поддерживает несколько функций на Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 и Samsung Galaxy S24, включая Summarize в Recorder и Smart Reply в Gboard.
Приложение Recorder, позволяющее пользователям нажатием кнопки записывать и расшифровывать аудио, включает в себя сводку записанных разговоров, интервью, презентаций и других аудиофрагментов на базе Gemini. Пользователи получают сводки, даже если у них нет сигнала или подключения к Wi-Fi, и в знак уважения к конфиденциальности никакие данные не покидают их телефон в процессе обработки.
Nano также есть в Gboard, замене клавиатуры Google. Там он поддерживает функцию Smart Reply, которая помогает подсказать, что вы хотите сказать в следующий раз, когда ведете разговор в приложении для обмена сообщениями, таком как WhatsApp.
В приложении Google Сообщения на поддерживаемых устройствах Nano управляет функцией Magic Compose, которая может создавать сообщения в таких стилях, как «взволнованное», «официальное» и «лирическое».
Google заявляет, что будущая версия Android будет использовать Nano для оповещения пользователей о потенциальном мошенничестве во время звонков. Новое приложение погоды на телефонах Pixel использует Gemini Nano для создания индивидуальных прогнозов погоды. А TalkBack, служба доступности Google, использует Nano для создания звуковых описаний объектов для слабовидящих и слепых пользователей.
Сколько стоят модели Gemini?
Gemini 1.0 Pro (первая версия Gemini Pro), 1.5 Pro и Flash доступны через Gemini API от Google для создания приложений и сервисов. Все они с бесплатными опциями. Но бесплатные опции накладывают ограничения на использование и не включают некоторые функции, такие как кэширование контекста и пакетирование.
В остальном модели Gemini — это модели с оплатой по мере использования. Вот базовык цены, без учета дополнительных услуг, таких как кэширование контекста (цены актуальны по состоянию на сентябрь 2024 года):
- Gemini 1.0 Pro: 50 центов за 1 миллион входных токенов, $1,50 за 1 миллион выходных токенов.
- Gemini 1.5 Pro: $3,50 за 1 миллион входных токенов (для подсказок длиной до 128 тыс. токенов) или $7 за 1 миллион входных токенов (для подсказок длиной более 128 тыс. токенов). $10,50 за 1 миллион выходных токенов (для подсказок длиной до 128 тыс. токенов) или $21,00 за 1 миллион выходных токенов (для подсказок длиной более 128 тыс. токенов).
- Gemini 1.5 Flash: 7,5 центов за 1 миллион входных токенов (для подсказок длиной до 128 тыс. токенов), 15 центов за 1 миллион входных токенов (для подсказок длиной более 128 тыс. токенов), 30 центов за 1 миллион выходных токенов (для подсказок длиной до 128 тыс. токенов), 60 центов за 1 миллион выходных токенов (для подсказок длиной более 128 тыс. токенов).
Токены — это подразделенные биты необработанных данных, например, слоги «fan», «tas» и «tic» в слове «fantastic». 1 миллион токенов эквивалентен примерно 700 000 слов. Входные данные относятся к токенам, подаваемым в модель, а выходные данные относятся к токенам, которые генерирует модель.
Цены на Ultra пока не объявлены, а Nano все еще находится в стадии раннего доступа.
Появится ли Gemini на iPhone?
Все может быть. Скорее всего Google не упустит возможности распространить свое влияние на конкурентную платформу. Тем более Apple заявила, что ведет переговоры о том, чтобы использовать Gemini и другие сторонние модели для ряда функций в своем наборе Apple Intelligence. После ключевой презентации на WWDC 2024 старший вице-президент Apple Крейг Федериги подтвердил планы по работе с моделями, включая Gemini, но он не разгласил никаких дополнительных подробностей.