Подразделение Amazon Web Services (AWS) Amazon объявило на конференции re:Invent, что клиенты его облачной платформы теперь могут использовать системы с ускорителями Trainium2, предназначенными для обучения и запуска больших языковых моделей искусственного интеллекта.
Чипы, представленные в прошлом году, в четыре раза быстрее своих предшественников: один экземпляр EC2 с 16 ускорителями Trainium2 обеспечивает производительность до 20,8 Пфлопс. Это значит, что при развертывании масштабной модели Meta Llama 405B на платформе Amazon Bedrock заказчик получит «Скорость генерации токенов в три раза выше, чем у других доступных предложений от крупных облачных провайдеров.«. Вы также можете выбрать систему EC2 Trn2 UltraServer с 64 ускорителями Trainium2 и производительностью 83,2 Пфлопс. Отмечается, что показатель 20,8 Пфлопс относится к плотным моделям и точности FP8, а 83,2 Пфлопс — к разреженным моделям и FP8. Для связи между ускорителями в системах UltraServer используется межсоединение NeuronLink.
Совместно со своим партнером Anthropic, основным конкурентом OpanAI в области больших языковых моделей, AWS намерена построить большой кластер систем UltraServer с «сотни тысяч чипов Trainium2», где стартап может обучать свои модели. Он будет в пять раз мощнее, чем кластер, на котором Anthropic обучает свое нынешнее поколение моделей – по оценкам AWS, это будет «крупнейший вычислительный кластер в мире«. Проект поможет компании превзойти производительность нынешних ускорителей Nvidia, которые по-прежнему пользуются большим спросом и остаются в дефиците. Хотя в начале следующего года Nvidia готовится выпустить ускорители Blackwell нового поколения, которые при 72 чипах на стойку будут предлагать до 720 Пфлопс для FP8.
Возможно, поэтому AWS уже анонсировала следующее поколение ускорителей Trainium3, которые предлагают очередное четырехкратное увеличение производительности для систем UltraServer — ускорители будут производиться по 3-нм техпроцессу и их внедрение начнется в конце 2025 года. Необходимость в системах нового поколения компания обосновала тем, что современные модели ИИ по своим масштабам приближаются к триллионам параметров. Инстансы Trn2 в настоящее время доступны только в восточном регионе инфраструктуры AWS США, но вскоре будут доступны и в других регионах; Системы UltraServer в настоящее время работают в режиме предварительного доступа.