xAI выпустила Grok 4.1 — модель ИИ заняла первое место в независимых тестах LMArena

Компания Илона Маска xAI начала глобальное внедрение Grok 4.1 и Grok 4.1 Thinking, которые представляют собой улучшенные версии предыдущего Grok 4. Оба продукта можно использовать бесплатно, но у платных пользователей есть менее строгие ограничения.

По словам представителей компании, новая модель Grok 4.1 продемонстрировала в тестах трехкратное снижение вероятности генерации ложной информации или, как ее сейчас называют, «галлюцинаций», по сравнению с предшественниками, что позволяет назвать это обновление одним из самых успешных в истории стартапа xAI.

Новые модели были протестированы LMArena, независимым проектом с открытым исходным кодом, специализирующимся на сравнительном тестировании моделей больших языков (LLM) с использованием «слепых» рандомизированных тестов. Результаты показывают, что обе новые модели демонстрируют выдающуюся производительность в самой конкурентной среде платформы. Grok 4.1 Thinking возглавил рейтинг экспертов LMArena, набрав 1483 балла, а базовая версия Grok 4.1 заняла второе место с 1465 баллами. Специалисты платформы отметили, что этот результат представляет собой улучшение более чем на 40 пунктов по сравнению с Grok 4 Fast, выпущенным два месяца назад.

Несмотря на значительный прогресс, аналитики полагают, что Grok 4.1 может оказаться не лучшей моделью года, поскольку Google готовится к выпуску Gemini 3.0, которая по предварительным оценкам имеет потенциал стать самой мощной LLM на сегодняшний день.

Похожие записи