Microsoft расширила свою линию из крупных языковых моделей для искусственного интеллекта PHI-4 с двумя новыми проектами с относительно скромными системными требованиями. Один из них мультимодальный, т.е. Работает с несколькими форматами данных.
Microsoft Phi-4-Mini работает только с текстом, в то время как Phi-4-Multimodal-это улучшенная версия, которая также может обрабатывать визуальные и аудио-запросы. Обе модели, по словам разработчика, значительно превосходят альтернативы с сопоставимыми размерами при выполнении определенных задач.
Microsoft Phi-4-Mini имеет 3,8 миллиарда параметров, что означает, что он достаточно компактен для работы на мобильных устройствах. Модель основана на специальной версии архитектуры трансформатора. В стандартной версии модели трансформатора анализируют текст до и после каждого слова, чтобы понять значение; При разработке PHI-4-Mini Microsoft использовала версию трансформатора только для декодера, которая анализирует только предыдущее слово в тексте, уменьшая нагрузку на вычислительные ресурсы и увеличивая скорость обработки данных.
Для дополнительной оптимизации используется сгруппированная технология внимания запроса-этот механизм помогает модели определить, какие фрагменты данных наиболее подходят для обработки текущей задачи. Phi-4-Mini может генерировать текст, переводить документы и управлять внешними приложениями; Модель, по мнению его разработчиков, отличилась решению математических задач и написании компьютерного кода, даже когда они были необходимы »сложные рассуждения«. Точность в ответах на Phi-4-Mini, согласно самому Microsoft, заключается в «существенно«Лучше, чем результаты, предоставленные несколькими другими моделями аналогичного размера.
Phi-4-Multimodal является расширенной версией Phi-4-Mini с 5,6 миллиардами параметров; Он принимает не только текст, но и изображения, аудио и видео в качестве запросов. Для дальнейшего обучения модели Microsoft использовала новый метод, называемый смеси Loras. Обычно адаптация ИИ к новой задаче требует изменения его весов — параметров конфигурации, которые определяют, как он обрабатывает данные. Чтобы облегчить эту задачу, метод LORA (с низкой оценкой адаптации) используется в модель для выполнения незнакомой задачи-небольшое количество новых весов, оптимизированных для этой задачи. Смесь метода LORAS адаптирует этот механизм к мультимодальной обработке данных: при разработке PHI-4-Multimodal оригинальный PHI-4-Mini дополняется весами, оптимизированными для аудио и видео. В результате, говорит Microsoft, можно смягчить некоторые компромиссы, связанные с другими подходами к созданию мультимодальных моделей.
В тестах, связанных с визуальной обработкой, PHI-4-мультмодальный набирает 72 балла-только за флагманскими моделями OpenAI и Google. При одновременной обработке видео и аудио он «с большой разницей«Преодолевает Flash Google Gemini-2,0, а также открытый код Internomni. Phi-4-Mini и Phi-4-Multimodal доступны на платформе Hugging Face под лицензией MIT, которая позволяет использовать их коммерческое использование.