Тайваньский тайвань Foxconn, который известен как крупнейший производитель компьютеров, представил свою первую крупную языковую модель на традиционном китайском языке с глубоким логическим анализом. Модель называется Foxbrain и разработана всего за 4 недели. Компания намерена сделать его открытым кодом в будущем и общедоступным.
Foxbrain основан на архитектуре Meta Llama 3.1 и имеет 70 миллиардов параметров. Он превосходит существующие аналоги того же шкалы, в частности, модель Тайвань-Ллама-70B. Новый Foxbrain Он показывает особенно высокие результаты в математике и тестах логического мышления, получая максимальную отчет о особенностях тайваньской версии китайского языка.
В процессе обучения использовались 120 графических процессоров NVIDIA H100 и высокоскоростной сети NVIDIA Quantum-2 Infiniband. Весь процесс занял приблизительно четыре недели и потребовалось 2688 вычислительных дней для графических процессоров. Оптимизированный подход к обучению привел к значительному снижению затрат и повышению эффективности.
По словам доктора Юн-Хуи Ли, директора Центра искусственного интеллекта Хон Хай, основным направлением разработки является оптимизация процесса обучения, а не на увеличении вычислительной мощности. Foxbrain использует специальную технику, называемую Adaptive Soiding Reflection, которая обучает модель для создания логических отражений самостоятельно и находить решения сложных задач.
Foxbrain обучен уникальному набору данных, состоящих из 98 миллиардов токенов высококачественного китайского текста. Контекстное окно модели может содержать 128 000 жетонов. Согласно тестам TMMLU+, модель показывает значительные улучшения для базовой модели Meta Llama 3.1 и даже приближается к мировым лидерам в области логического мышления, как Deep.
Foxbrain был разработан для внутренних задач Foxconn, включая анализ данных, принятие решений, совместную работу документов, математические задачи и создание программных кодов. Тем не менее, компания уже объявила о своих намерениях сотрудничать с другими разработчиками и технологическими партнерами. В будущем модель будет открытым кодом, и планируется расширить свою способность до производства, управления цепочкой поставок и принятием решений на основе искусственного интеллекта.
Nvidia поддержала разработку Foxbrain, предоставив способность суперкомпьютера Taipe-1 и технической экспертизы. Новая модель будет частью общей технологической модернизации трех ключевых областей фокусировки Foxconn: интеллектуальное производство, интеллектуальное электрическое транспорт и интеллектуальные города.
Foxbrain будет официально представлен на конференции Nvidia GTC 2025 20 марта в рамках презентации, посвященной новым возможностям и разработке основных моделей искусственного интеллекта.