Bytedance и DeepSeek находят способы обойти дорогие расчеты с помощью графического процессора.
Bytedance, владелец Tiktok, утверждает, что достиг 1,71-кратного улучшения эффективности моделей крупных языков (LLM), что может снизить зависимость китайских технологических компаний от мощных графических процессоров Nvidia.
Разработчики Doubao объясняют прорыв с введением кометы — оптимизированный механизм Смеси-флюг-эксперты (MOE)что позволяет более эффективное распределение вычислительных ресурсов. В статье платформы Arxiv они отметили, что технология уже используется в рабочих кластерах Bytedance с более чем 10 000 графических процессоров, обеспечивая значительную экономию вычислительной мощности.
MOE широко используется для масштабирования LLM до триллиона параметров при фиксированных затратах на расчет. Тем не менее, этот метод до сих пор столкнулся с проблемой «перекрывающейся связи и расчетов», которая снижала эффективность. Новый подход Bytedance устраняет близкое место в общении, что позволяет более высокой скорости обучения.
Достижение может ослабить воздействие NVIDIA на китайский рынок, где его высокопроизводительные чипы подвергаются строгим ограничениям экспорта в США. Аналогичные события ранее вызывали колебания рыночной стоимости Nvidia: в феврале, после успеха китайского Depepeek, компания потеряла 600 миллиардов долларов из -за своей капитализации всего за один день, хотя с тех пор она восстановилась.
Bytedance планирует открыть код новой системы для продвижения дальнейших улучшений машинного обучения. Между тем, другие китайские технологические гиганты также ускоряют развитие ИИ. А совсем недавно группа американских ученых, включая Ли Фафи, представила новую модель логического рассуждения, обученная всего за 26 минут на 16 графических данных NVIDIA H100 с использованием алгоритмов Alibaba.